代碼AI弗森博客

背景我們的日常使用大模型，就像是在不同模型間打補丁：“這個模型會看圖，但不會講故事；那個模型能生成視頻，但不懂視頻在表達什麼。” 於是乎，大致像這樣，想用圖像模型，就得跑去找midjourney；想做視頻模型，又得等 Sora；想讓模型理解視頻劇情，還得靠那些半懂不懂的“視覺語言拼接模型”；想讓模型讀情緒，甚至還得給它加一堆“情緒標籤的模板提示詞”。而就在昨天，我