【實驗報告】sglang,vllm,transformers 在強制串行推理場景下的表現 我們現在考慮若干強制串行的需求。也就是説,必須推理完這個之後再推理下一個。 調包範圍是 transformers,vllm,sglang 投機採樣/不使用投機採樣。 投機採樣對應 eagle3。容易找到一些英文語料訓練的 eaglehead
背景 系統架構中對系統性能設計的解決方案之一:“阿姆達爾方案”。書中還有個完全看不懂的公式,理解起來腦仁痛(不懂…)但發現很有價值,便系統的學習一下。 例題試先做一下,帶着疑問點再看定律。 例題:假設某一功能的處理時間為整體系統運行時間的60%,若使該功能的處理速度提高至原來的5倍,則根據阿姆達爾定律,整個系統的處理速