快手可靈團隊開源 UniVideo,一個模型搞定“視頻理解+生成+編輯”

新聞
HongKong
9
05:51 PM · Jan 09 ,2026

快手可靈團隊與滑鐵盧大學聯合推出統一視頻模型 UniVideo,這個模型首次將視頻理解、編輯和生成整合到了一個模型中。

該方法使用一個多模態大語言模型 (MLLM) 來理解指令和上下文,一個多模態 DiT (MMDiT) 用於生成和編輯視頻。該技術支持多種視頻處理功能,包括生成,即根據文本,圖像等參考描述生成視頻理解,能夠解析圖像或視頻中的視覺信息編輯,根據用户描述與圖像參考對視頻進行內容,風格修改。

演示中它支持通過輸入圖片和 prompt 來生成視頻,也可以輸入視頻和圖片來修改視頻,或者直接使用 prompt 來編輯視頻。

技術上這個模型最大的突破是:用 千問 2.5 VL 做理解負責處理圖像、視頻和文本輸入,用混元視頻做生成,兩個模型聯動配合,讓 AI 既能"看懂"又能"創作"。

以前這些任務需要好幾個模型分別處理,現在一個模型全搞定,而且不同能力之間還能相互增強。

從實際效果來看動作比較小的視頻質量是可以的, 不過也有典型的AI問題, 比如火焰效果需要優化, 以及會有一定程度的一致性問題, 比如這個頭髮的髮絲效果. 但瑕不掩瑜, 這個模型的前景非常不錯.

開源地址:https://github.com/KlingTeam/UniVideo

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.