11月10日,斯坦福大學教授、World Labs聯合創始人李飛飛發表長文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》(從語言到世界:空間智能是AI的下一個前沿)。李飛飛認為,當前以大型語言模型為代表的AI雖然擅長處理抽象知識,卻如同在“黑暗中行走”,缺乏對物理世界的真實理解。而空間智能——即人類用以理解、導航並與三維世界交互的底層能力,輔以視頻孿生技術的具象化支撐,將是實現機器真正智能的關鍵突破。

從語言到世界:空間智能與視頻孿生開啓AI新徵程_語言模型

空間智能是指AI系統通過對三維空間和時間的理解,實現感知、推理和行動的能力,而智匯雲舟研發並首倡的視頻孿生技術不僅是連接現實世界視覺信息與數字空間的“高速通路”,更被視為AI空間智能最豐富、最實時的數據入口之一。技術流程上,首先通過AI識別,精準捕捉視頻圖像中的靜態環境與動態目標,完成“感知”階段;進而,通過匹配經緯度、海拔等座標信息,將二維像素座標轉化為精準的三維空間座標,實現從“感知”到深度“理解”的關鍵跨越,為孿生體數據的高效管理與智慧“決策”奠定基礎。

更為重要的是,視頻孿生技術為全場景業務要素賦予了統一的時空屬性,徹底打破數據孤島,支持在“時間+空間”雙維度下跨鏡頭、跨系統、跨場景的關聯檢索與深度分析。這使得對場景內的人、車、地、物、事件的時空理解、動態仿真與未來預測成為可能。疊加具身智能硬件後,更能構建起“感知—理解—決策—處置”的完整智能化管理閉環,不僅彰顯視頻孿生作為核心數據入口的價值,也完美契合了空間智能的技術發展邏輯。

李飛飛解釋道,空間智能是人類認知的“腳手架”,它不僅是我們在日常生活中停車、接物等無縫操作的基礎,更是科學發現、建築設計和個人敍事的核心。而視頻孿生正是將這種認知腳手架數字化、可計算化的關鍵工具,它讓AI得以在虛擬空間中復現物理世界的規律,進而形成與人類相似的空間認知邏輯。

她指出,人類對世界的理解是整體性的——不僅關乎我們“看見了什麼”,還包括事物在空間上的關係、它們的意義以及彼此的關聯。通過想象、推理、創造與互動來理解世界,而非僅僅依賴語言描述,這正是空間智能的力量,而視頻孿生則為AI提供了踐行這種力量的“虛擬訓練場”,讓機器能夠在數字鏡像中反覆演練對空間關係的感知與推理。

為了賦予機器這種能力,我們需要構建一種全新的“世界模型”。這種模型必須具備三種核心能力,而視頻孿生技術在其中扮演着不可或缺的角色:首先是生成性,能夠創造出在幾何、物理和語義上都保持一致性的虛擬世界,這正是視頻孿生的核心優勢;其次是多模態性,能理解和整合文本、圖像、動作等多種指令,視頻孿生可作為多模態數據的融合載體,實現跨維度信息的統一呈現;最後是交互性,能根據動作輸入預測世界的下一步變化,視頻孿生的實時反饋特性恰好滿足這一需求,讓AI的每一次交互都能得到精準的空間響應。

實現這一願景面臨諸多挑戰,包括為視頻孿生場景尋找新的訓練方法、處理孿生模型所需的海量複雜空間數據,以及開發能支撐高保真孿生系統的新型模型架構。這些挑戰的突破,將直接推動空間智能從理論走向實踐。

空間智能與視頻孿生結合的應用前景極為廣闊。在短期內,二者將共同賦能創造力,為電影、遊戲和建築領域的創作者提供強大工具——例如李飛飛團隊正在開發的Marble平台,便能基於視頻孿生技術快速生成可探索的3D環境,讓創作者在虛擬空間中直觀調整設計方案;中期來看,它們將推動具身智能機器人的發展,通過視頻孿生構建的高仿真訓練環境,讓機器人在進入真實場景前完成充分學習,成為人類在家庭、實驗室中的可靠協作夥伴;長遠看,空間智能與視頻孿生有望在科學、醫療和教育領域引發革命,通過構建精準的科學實驗孿生系統、人體器官孿生模型和沉浸式教學孿生場景,極大增強人類在各自專業領域的能力。

李飛飛強調,她致力於開發人工智能的初心始終是增強人類能力,而非取代人類。構建具備空間智能的機器,推動視頻孿生技術與AI的深度融合,最終目標是讓AI成為人類應對重大挑戰的得力夥伴,共同創造一個更美好、人類潛能得以更大發揮的未來。

近期,李飛飛多次在公開場合強調空間智能及相關技術的重要性。此前,她與黃仁勳、約書亞·本吉奧、傑弗裏·辛頓、揚·勒昆以及比爾·達利齊聚倫敦,在《金融時報》(FT)主辦的“未來人工智能峯會”(FT Future of AI Summit)上提出,當前大語言模型與智能體仍主要基於語言維度,但若深入反思人類智能的本質,就會發現智能的範疇遠超越語言層面。而空間智能,輔以視頻孿生等具象化技術,正是感知與行動之間的關鍵紐帶——人類與動物擁有遠超語言範疇的非凡能力,能夠感知、推理、交互並創造立體世界,AI要實現這一點,就必須突破語言的侷限,在空間認知與孿生鏡像中尋找答案。

“即便當今最強大的語言模型,在基礎空間智能測試中仍然表現不佳,更難以構建精準的視頻孿生系統。從這個維度來看,作為一門科學與學科,人工智能仍有太多有待攻克和開拓的疆域,而這必將催生更廣闊的應用場景。”李飛飛説。

在她和楊立昆(Yann LeCun)、謝賽寧等AI領域領軍學者聯合發表的論文《Cambrian-S: 邁向視頻中的空間超感知》中,更是明確提出實現AGI(通用人工智能)需先突破“超感知”能力,而視頻孿生正是衡量這種超感知能力的重要標尺。研究指出,當前以大語言模型為核心的AI系統缺乏對現實世界的真實感知能力,無法像人類一樣理解視頻中的空間關係與動態變化,而視頻孿生正是實現空間超感知、構建與世界深度交互的AI系統的關鍵技術之一。

從語言到世界:空間智能與視頻孿生開啓AI新徵程_人工智能_02