【實驗報告】sglang,vllm,transformers 在強制串行推理場景下的表現 我們現在考慮若干強制串行的需求。也就是説,必須推理完這個之後再推理下一個。 調包範圍是 transformers,vllm,sglang 投機採樣/不使用投機採樣。 投機採樣對應 eagle3。容易找到一些英文語料訓練的 eaglehead