背景 我們的日常使用大模型,就像是在不同模型間打補丁:“這個模型會看圖,但不會講故事;那個模型能生成視頻,但不懂視頻在表達什麼。” 於是乎,大致像這樣,想用圖像模型,就得跑去找midjourney;想做視頻模型,又得等 Sora;想讓模型理解視頻劇情,還得靠那些半懂不懂的“視覺語言拼接模型”;想讓模型讀情緒,甚至還得給它加一堆“情緒標籤的模板提示詞”。 而就在昨天,我