微信 AI 團隊提出新型擴散語言模型框架:WeDLM

新聞
HongKong
4
05:11 PM · Jan 13 ,2026

騰訊微信AI團隊提出了一種新型擴散語言模型框架WeDLM(WeChat Diffusion Language Model),旨在解決傳統大型語言模型(如GPT系列)在並行推理效率上的瓶頸問題。

論文 & 代碼地址:https://github.com/tencent/WeDLM

WeDLM通過拓撲重排技術,將擴散模型與標準因果注意力機制結合,使並行生成過程兼容KV緩存技術,解決了傳統擴散模型因雙向注意力導致的加速受限問題。這一設計使模型在保持生成質量的同時,推理速度顯著提升,尤其在複雜推理任務(如數學計算、代碼生成)中表現突出。

 

性能表現

  • 速度優勢:在數學推理任務(如GSM8K)中,WeDLM-8B相比優化後的自迴歸模型(如Qwen3-8B)加速約3倍,在低熵場景(如計數任務)中加速可達10倍以上。
  • 質量保障:在多個基準測試(如ARC、MMLU、Hellaswag)中,WeDLM的生成質量與自迴歸基線模型相當甚至更優,證明了其在保持高效的同時不犧牲準確性。

     

應用場景

WeDLM適用於需要快速生成大量文本的場景,如智能客服、代碼輔助生成、實時問答等。其高效推理能力有助於降低計算成本,提升用户體驗。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.