快手開源新一代旗艦多模態模型 Keye-VL

新聞
Remote
25
04:29 PM · Nov 28 ,2025

快手宣佈正式發佈新一代旗艦多模態模型 Keye-VL-671B-A37B,並同步開放代碼。公告稱,該模型具備“善看會想”,並在在通用視覺理解、視頻分析、數學推理等多項核心benchmark中全面領跑。

在保持基礎模型強大通用能力的前提下,Keye-VL-671B-A37B 對視覺感知、跨模態對齊與複雜推理鏈路進行了系統升級,實現了多模態理解和複雜推理的全方位性能躍升:更會“看”、更會“想”、也更會“答”。無論是日常場景還是高難任務,都能給出更準確、更穩健的迴應。

Keye-VL-671B-A37B採用DeepSeek-V3-Terminus作為大語言模型基座初始化,具備更強的文本推理能力,視覺模型採KeyeViT初始化,來自KeyeVL1.5,二者通過MLP層進行橋接。

Keye-VL-671B-A37B的預訓練涵蓋三個階段,系統化構建模型的多模態理解與推理能力。模型複用Keye-VL-1.5的視覺編碼器,該編碼器已經通過8B大小的模型在1T token的多模態預訓練數據上對齊,具備強大的基礎感知能力。

結合嚴格篩選的約300B高質量數據預訓練數據,以有限計算資源高效構建模型的核心感知基礎,確保視覺理解能力紮實且計算成本可控。具體訓練流程如下:

  • 第一階段:凍結ViT和LLM,只訓練隨機初始化的Projector,保證視覺、語言特徵能初步做對齊。
  • 第二階段:打開全部參數進行預訓練。
  • 第三階段:在更高質量的數據上做退火訓練,提升模型的細粒度感知能力。

Keye多模態的預訓練數據構建,通過自動化數據管道實施嚴格的過濾、重採樣與VQA數據增強,覆蓋OCR、圖表及表格等多種格式,端到端提升模型的感知質量與泛化能力;在退火階段,使用DeepSeek-V3-Terminus合成思維鏈數據,使模型在深化感知訓練的同時保持LLM原有的強大推理能力。

Keye-VL-671B-A37B的後訓練由監督微調,冷啓動和強化學習三個步驟組成,訓練任務涵蓋視覺問答、圖表理解、富文本OCR、數學、代碼、邏輯推理等。在SFT階段,採用更多多模態和純文本的長思維鏈數據,對模型的純文本能力進行回火並增強多模態能力。在冷啓動階段,採用推理數據增強模型的推理能力,在強化學習階段,採用複雜推理數據提升模型的think和no_think能力,並加入視頻數據,增強模型的視頻理解能力。

具體評測結果如下:

官方表示,面向未來,Keye-VL將在持續夯實基礎模型能力的同時,進一步融合多模態Agent能力,走向更“會用工具、能解複雜問題”的智能形態。強化模型的多輪工具調用能力,讓它能夠在真實任務中自主調用外部工具,完成搜索、推理、整合;同時推進“think with image”、“think with video”等關鍵方向,使模型不僅能看懂圖像與視頻,還能圍繞它們進行深度思考與鏈式推理,在複雜的視覺信號中發掘關鍵信息。

通過基礎能力+Agent能力的雙輪驅動,Keye-VL目標是不斷拓展多模態智能的上限,向更通用、更可靠、更強推理的下一代多模態系統邁進。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.