MIAOYUN | 每週AI新鮮事兒（10.31-11.07）詳情 - 人工智能,自然語言處理,機器人,資訊,深度學習 MIAOYUN 博客

本週AI領域動態密集，美團、360、銀河通用、字節、騰訊、Kimi與科大訊飛等分別發佈多模態、圖文、導航及視頻推理模型；工具層面，寒武紀、百度、崑崙萬維、騰訊均推出新平台或功能。技術方面，在長序列處理、多智能體協同及代碼執行效率上取得突破。市場方面，OpenAI與AWS達成鉅額合作，小鵬發佈人形機器人「IRON」。整體呈現高效化、多模態與實用化趨勢，一起來回顧本週發生的AI新鮮事兒吧！

AI 大模型

騰訊聯合廈門大學開源3D場景生成模型「FlashWorld」

10月30日消息，騰訊聯合廈門大學開源的3D場景生成模型「FlashWorld」，能夠在單GPU上以5-10秒的速度，從單張圖像或文本提示中生成高質量3D場景，速度提升可達10至100倍。該模型通過跨模式蒸餾技術，結合多視角和三維兩種方案的優勢，實現了高保真與3D一致性。

以色列AI公司Lightricks推出視頻生成模型「LTX-2 AI」

10月31日，以色列AI公司Lightricks推出視頻生成模型「LTX-2 AI」，成為首個支持原生4K分辨率、50幀每秒輸出且具備音畫同步能力的開源模型。該模型採用混合擴散-變換器架構，是一個融合“時域（Time）+空間（Frame）+聲波（Audio）”的擴散模型，支持多種輸入控制方式，包括鏡頭運動指令、物體軌跡設定等，賦予創作者更高自由度。內置LoRA微調模塊，允許用户使用少量樣本訓練專屬風格模型，保持跨場景一致性。此外，「LTX-2 AI」可在消費級GPU上本地運行。

美團發佈並開源全模態實時交互大模型「LongCat-Flash-Omni」

11月3日，美團正式發佈並開源全模態實時交互大模型「LongCat-Flash-Omni」，並同步推出首款AI助手App「LongCat」，開啓多模態交互新階段。該模型總參數量560B，激活參數27B，是業界首個實現全模態覆蓋、端到端架構、大參數量高效推理於一體的開源大語言模型，支持128K上下文窗口及超8分鐘音視頻交互，在文本、圖像、音頻、視頻等各項模態的能力達到開源SOTA。

360人工智能研究院開源「FG-CLIP2」成最強圖文跨模態VLM模型

11月4日，360人工智能研究院最新開源的「FG-CLIP2」模型，在八大類任務、29項測試中，全面超越Google與Meta，成為目前最強的圖文跨模態視覺基礎（VLM）模型。該模型通過實現局部細粒度識別與中英雙語均衡訓練，解決了以往視覺模型的局部理解能力不足的問題，能夠準確解析複雜場景和空間關係。其訓練體系採用了FineHARD數據集和“兩階段”訓練策略，使模型在細節、空間與語義的感知能力顯著提升，推動AI視覺理解的行業基準向前發展。

銀河通用聯合高校推出首個跨本體全域環視導航基座大模型「NavFoM」

11月5日，銀河通用聯合北京大學、阿德萊德大學等多所頂尖高校推出全球首個跨本體全域環視導航基座大模型「NavFoM」（Navigation Foundation Model）。該模型創新應用TVI Tokens與BATS策略兩項關鍵技術，還構建了一個跨任務數據集，包含800萬條跨任務、跨本體導航數據和400萬條開放問答數據，實現時空理解和實時響應，讓機器人“看懂指令、自主走路”。基於該模型，銀河通用還發布「TrackVLA++」、「UrbanVLA」和「MM-Nav」三個應用模型，針對不同的落地需求。

北京字節聯合開源首個時空推理視頻模型「Open-o3 Video」

11月5日，北京大學和字節跳動聯合推出了首個將顯式時空證據嵌入視頻推理全過程的開源模型「Open-o3 Video」，讓AI不僅能回答有關視頻內容問題，還能在思維過程中同步直觀標出具體位置，真正實現有跡可循的視頻推理。模型採用non-agent架構，避免了複雜的工具調用和多輪推理，關鍵指標可提升至24.2%，性能表現超越「GPT-4o」和「Gemini-2-Flash」等模型。

月之暗面發佈迄今能力最強的開源思考模型「Kimi K2 Thinking」

11月6日，月之暗面發佈「Kimi K2 Thinking」，是Kimi迄今能力最強的開源思考模型，具有通用Agentic能力和推理能力的思考模型，擅長深度推理，可以通過多輪工具調用，解決各類複雜的難題。在人類最後的考試（Humanity's Last Exam）、自主網絡瀏覽能力（BrowseComp）、複雜信息收集推理（SEAL-0）等多項基準測試中表現達到 SOTA 水平。

科大訊飛發佈「訊飛星火X1.5」及系列AI產品

11月6日，科大訊飛發佈全新星火深度推理大模型「X1.5」，基於全棧國產算力平台訓練，採用MoE架構，總參數293B，推理激活僅30B，推理效率相比「訊飛星火X1」提升100%。其語言理解、文本生成、知識問答、邏輯推理、數學能力、代碼能力等六大核心能力對標國際主流大模型，其中，數學能力持續保持國際領先。

AI 工具

寒武紀推出基礎軟件平台「Cambricon NeuWare」

11月3日，寒武紀正式發佈基礎軟件平台「Cambricon NeuWare」，讓用户與開發者能夠跨越不同的寒武紀硬件和應用場景，降低上手難度，提升開發效率，快速遷移與部署AI應用。該平台全面兼容最新PyTorch版本和Triton算子開發語言，支持用户模型和自定義算子快速遷移，在大模型與搜廣推訓練推理方面完成大規模技術驗證，支持DeepSeek V3、Qwen系列等MoE類模型訓練，實現發佈即適配。此外，平台還提供完整的驅動運行時庫、編譯器、算子庫和集羣工具，推動AI能力真正走進千行百業。

百度文心APP推出「魔法漫畫」功能

11月3日，百度文心APP推出「魔法漫畫」功能，用户只需一句話或一張照片，兩分鐘即可生成多圖多頁、劇情完整的AI連載漫畫。該功能支持自定義角色形象、九種風格選擇(吉卜力、二次元、國風水墨等)，每頁漫畫自動生成文字解説，可一次性生成6-7頁。此外，還支持“續寫”和“改編”功能，用户可基於原劇情延伸或重寫新版本，生成的漫畫可下載圖片或分享到微信朋友圈。

崑崙萬維全新AI視頻創作平台「SkyReels」正式上線

11月4日，崑崙萬維旗下AI視頻創作平台「SkyReels」正式煥新上線，Web端與移動端APP已全面登陸。模型側，強勢聚合「Google Veo 3.1」、「Sora 2」等全球頂尖AI多模態模型；功能側，一站式提供圖片生成、視頻生成、數字人、音樂生成等多種AI創作方式。此次更新主要推出無限畫布、數字人口播、模版功能、專家Agent、視頻延長和風格化等核心能力，自研「SkyReels V3」模型是業內首個支持單鏡頭多人多輪對話的數字人模型，推動AI視頻創作邁向“零門檻創意生成時代”。

騰訊「ima」正式支持導入、導出「騰訊文檔」

11月4日，騰訊「ima」正式支持導入、導出「騰訊文檔」，助力工作流再提速。在「ima」PC端導入文件（含文檔、表格、幻燈片、智能文檔和PDF等品類）到知識庫時，可以選擇「騰訊文檔」內容，進行提問和分析；對於「ima」的回答，支持一鍵導出為「騰訊文檔」，進行再次編輯、協作及創作。兩款應用打通後一站式完成內容導入、輸出全流程，無需在應用間來回切換，效率翻倍提升工作學習體驗。

騰訊雲CodeBuddy成為國內首個支持「Skills」標準化接口的AI編程工具

11月6日，騰訊雲CodeBuddy宣佈成為國內首個支持「Skills」標準化接口的AI編程工具。通過該接口，開發者可以為AI添加多樣化技能（如智能處理PDF、自動生成PPT、全自動發小紅書、全棧自動化開發等），AI從單一指令執行者升級為能獨立完成複雜任務的“智能代理”。「Skills」將不同領域專業知識，封裝成獨立可複用的技能模塊，每個技能包是對應技能的SOP，讓AI讀完就能高效、高質量執行；同時結合MCP協議實現外部工具聯動，顯著提升開發效率並降低上下文成本。

AI Agent

OpenAI發佈了使用「GPT-5」尋找和修復安全漏洞的智能體「Aardvark」

10月31日，OpenAI發佈了使用「GPT-5」尋找和修復安全漏洞的智能體「Aardvark」，其工作原理是監控代碼庫的提交與變更，在識別漏洞的同時分析其潛在利用方式，並自動提供修復建議。具體來説，它的工作流程從Git倉庫出發，依次經歷：威脅建模→漏洞發現→沙盒驗證→Codex 修復→人工複審→提交Pull Request。目前，「Aardvark」還處於beta測試階段，但在標準代碼庫的基準測試中，已識別出了92%的已知與人工注入漏洞，而且能定位僅在複雜條件下出現的問題。

阿里雲通義千問更新「AgentScope1.0」，增加兩款開源Agent

11月5日，阿里雲通義千問宣佈「AgentScope1.0」更新，增加了兩款基於AgentScope構建的開源智能體應用，分別是用於各種實際任務的「Alias-Agent」和用於數據處理的「Dat，a-Juicer Agent」。並擴展其核心能力，低代碼適配Trinity-RFT框架進行Agentic RL訓練，集成ReMe的長期記憶實現，同時上線「AgentScope-Samples」，構建“開箱即用型”智能體實現和全棧應用的集合。

技術突破

月之暗面推出創新性混合線性注意力架構「Kimi Linear」

10月31日，月之暗面推出創新性混合線性注意力架構「Kimi Linear」，解決當前LLMs在處理長序列任務時面臨的計算效率和性能瓶頸。該架構融合三份Kimi Delta Attention（KDA）與一份全局MLA，通過細粒度門控機制壓縮記憶狀態，在處理百萬級token時KV Cache佔用減少75%，解碼吞吐量最高提升6倍，TPOT指標較傳統MLA快6.3倍。

斯坦福大學及其合作團隊提出了「AgentFlow」框架

11月3日消息，近期斯坦福大學及其合作團隊提出了「AgentFlow」框架，採用模塊化架構，通過4個專門化智能體協同工作，配合專門設計的Flow-GRPO算法，使系統能夠在真實交互環境中持續優化決策策略，使得小規模的7B參數模型在搜索、數學等多個推理任務中超越大模型「GPT-4o」（約200B參數），為AI系統的高效推理和持續學習提供了新思路。

Anthropic發佈「代碼執行」新範式，效率提升98.7%

11月5日，Anthropic發佈新的Agent技術博客，詳細闡述「代碼執行」新範式，建立在模型上下文協議（MCP）之上，讓模型編寫代碼調用工具而非直接調用，將Token消耗從15萬降至2000，效率提升98.7%。新範式採用按需加載工具定義、數據本地流轉設計，解決了工具定義過載和中間結果消耗兩大Agent效率瓶頸。此外還帶來“漸進式披露、上下文高效工具、強大控制流、隱私保護和狀態持久化”五大核心優勢。

市場動態

OpenAI與AWS官宣達成價值380億美元為期7年的戰略合作

11月4日，OpenAI與AWS官宣達成價值380億美元為期7年的戰略合作。OpenAI 將立即並持續獲得AWS世界級的基礎設施支持，以運行其先進的AI工作負載。AWS將向OpenAI提供配備數十萬顆芯片的Amazon EC2 UltraServers（計算服務器），並具備將計算規模擴展至數千萬個CPU的能力，以支持其先進的生成式AI任務。

小鵬發佈全新一代人形機器人「IRON」

11月5日，小鵬發佈全新一代人形機器人「IRON」，身高1.78米，體重70公斤，具備仿生骨骼、肌肉和柔性皮膚結構。它擁有22個自由度的靈巧手和82個全身自由度，能以“貓步”姿態自然行走，搭載3顆圖靈AI芯片（2250TOPS算力）和物理世界大模型，支持對話、交互等智能功能。

高德與小鵬達成合作，未來將共同提供「Robotaxi」服務

11月5日，高德宣佈與小鵬汽車達成合作，未來將共同面向全球提供「Robotaxi」服務，高德通過「TrafficVLM」模型實現“超視距”能力，可在幾公里外感知突發事故並預判擁堵發展，提前推送預警信息。高德地圖沉澱了數十萬億級時空樣本，還構建了“時空信息建模+視覺感知監測+行業官方信息+用户分享與驗證”的多渠道數據融合體系，成為「Robotaxi」行業的“空間智能基礎設施”，降低行業創新門檻。