动态

详情 返回 返回

抖音內容技術團隊開源 ContentV:有限算力下高效訓練視頻生成模型的新路徑 - 动态 详情

圖片

https://www.bilibili.com/video/BV1jC3azYEaS/?aid=114787212069...
https://www.bilibili.com/video/BV1jC3azYEuW/?aid=114787212070...
抖音內容技術團隊開源了 ContentV,一種面向視頻生成任務的高效訓練方案。該方案在多項技術優化的基礎上,使用 256 塊顯卡,在約 4 周內完成了一個 8B 參數模型的訓練。儘管資源有限,ContentV 在多個評估維度上取得了與現有主流方案相近的生成效果。該工作探索了在有限算力條件下訓練視頻生成模型的可行路徑。目前,推理代碼與模型權重已對外開放。

  • 項目主頁:https://contentv.github.io
  • 技術報告:https://arxiv.org/abs/2506.05343
  • 代碼倉庫:https://github.com/bytedance/ContentV
  • 模型權重:https://huggingface.co/ByteDance/ContentV-8B

核心亮點

極簡設計

CogVideoX、HunyuanVideo 和 Wan2.1 等一系列優秀的開源工作表明,視頻生成的關鍵並不在於架構上的特殊設計,而在於如何高效利用有限的數據資源,並有效對齊人類偏好。

為驗證 ContentV 方案的通用性,本次開源的版本在擴散模型部分採用了經典的文生圖模型 Stable Diffusion 3.5 Large。為了適配視頻模態,模型在結構上僅做了以下兩項必要調整:

  • 將原始圖像 VAE 替換為 Wan2.1 中使用的3D-VAE;
  • 將 2D 位置編碼升級為 3D 版本。在具體編碼方式上,團隊對比了傳統的絕對位置編碼與主流的旋轉位置編碼。評估結果顯示,兩者在客觀指標和主觀感受上差異較小,因此保留了計算更高效的絕對位置編碼方案。

圖片

ContentV模型結構

多階段漸進訓練策略

上述的最小化結構改動,在解鎖了視頻生成能力的同時,也最大限度地保留了原模型的圖像生成能力。實驗證明,在新的VAE和位置編碼的適配階段,沿用Flow Matching的訓練方式,僅需1000步左右的微調,就能基本還原模型的圖片生成能力,大幅節省圖片預訓練階段的訓練成本。

圖片
VAE適配過程

在視頻生成的預訓練階段,為加速收斂實現高效訓練,研究團隊設計了一套從“低清短片”到“高清長片”的多階段漸進式訓練流程,逐步引導模型學習時間維度與空間維度上的動態表徵,從而提升視頻的連續性、動態表現力和畫面細節。

此外,實驗證明,在推理階段引入非線性採樣步長機制(Flow Shift)能夠顯著提升視頻的整體生成質量。通過多組對比實驗,團隊最終確定了最優的採樣策略,進一步優化了生成效果。

輕量級RLHF強化訓練

圖片

圖片

RLHF顯著提升畫面質感
在後訓練階段,除了使用高質量數據集進行微調外,通過 RLHF 或 DPO 等對齊人類偏好的監督訓練,也能顯著提升視頻生成質量。然而,這類方法通常依賴大量人工標註,用於訓練獎勵模型或直接監督擴散模型。同時,相較於圖像,視頻的序列長度顯著增加了 RLHF 和 DPO 的訓練資源需求。

為此,ContentV 研究團隊提出了一種輕量級的 RLHF 訓練方案,旨在不依賴人工標註的前提下,低成本提升視頻質量:

  • 利用開源的圖像獎勵模型對生成視頻的單幀進行監督。相較於視頻場景,目前圖像獎勵模型的訓練數據更易獲取,且在實際效果中表現更佳。實驗證明,由於 MM DiT 採用全局注意力機制,僅優化單幀即可帶動整體視頻質量的提升;
  • 將監督範圍限制在生成視頻的前 1 秒,相較於對完整視頻進行監督,可大幅減少訓練資源的消耗,同時獲得相近的質量提升效果。

採用上述策略後,在無需人工標註的情況下,僅使用少量訓練資源,便可顯著提升畫面質量。RLHF 微調後,模型在視覺質量(VQ)指標上的表現大幅提升,評估勝率高達 89.38%。

效果對比

在 VBench 這一主流視頻生成評測基準上,ContentV(8B)取得了 85.14 的綜合得分,表現優於多個現有的商業閉源模型,包括 Sora、Kling 1.6 和 Gen-3 等。

圖片

VBench榜單 (按照Overall分數降序排列)

為更貼近真實用户偏好,研究團隊圍繞感知質量、指令跟隨、物理一致性和視覺效果四個維度開展了人類偏好評估。結果顯示,ContentV 在整體表現上與 CogVideoX-5B、HunyuanVideo-13B 和 Wan2.1-14B 等主流開源模型相比具有一定優勢。

圖片

人類偏好評估指標

關注“字節跳動開源”公眾號獲得更多精彩內容。

user avatar bug1412 头像 openbayescom 头像 aixiaodekaomianbao_ddkwvd 头像
点赞 3 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.