快手可靈團隊開源 UniVideo，一個模型搞定“視頻理解+生成+編輯”

快手可靈團隊與滑鐵盧大學聯合推出統一視頻模型 UniVideo，這個模型首次將視頻理解、編輯和生成整合到了一個模型中。

該方法使用一個多模態大語言模型 (MLLM) 來理解指令和上下文，一個多模態 DiT (MMDiT) 用於生成和編輯視頻。該技術支持多種視頻處理功能，包括生成，即根據文本，圖像等參考描述生成視頻理解，能夠解析圖像或視頻中的視覺信息編輯，根據用户描述與圖像參考對視頻進行內容，風格修改。

演示中它支持通過輸入圖片和 prompt 來生成視頻，也可以輸入視頻和圖片來修改視頻，或者直接使用 prompt 來編輯視頻。

技術上這個模型最大的突破是：用千問 2.5 VL 做理解負責處理圖像、視頻和文本輸入，用混元視頻做生成，兩個模型聯動配合，讓 AI 既能"看懂"又能"創作"。

以前這些任務需要好幾個模型分別處理，現在一個模型全搞定，而且不同能力之間還能相互增強。

從實際效果來看動作比較小的視頻質量是可以的, 不過也有典型的AI問題, 比如火焰效果需要優化, 以及會有一定程度的一致性問題, 比如這個頭髮的髮絲效果. 但瑕不掩瑜, 這個模型的前景非常不錯.

開源地址：https://github.com/KlingTeam/UniVideo

發佈評論