MIAOYUN | 每週AI新鮮事兒（12.19-12.26）詳情 - 人工智能,深度學習,自然語言處理,資訊,機器學習 MIAOYUN 博客

本週AI領域聚焦模型升級、底層技術突破與應用生態拓展。OpenAI、阿里通義、智譜AI、字節跳動等持續強化模型專業化與多模態能力，編碼、圖像生成、語音交互等模型性能顯著提升；硬件與底層框架創新涌現，摩爾線程、上海交大等實現GPU架構、全光AI芯片突破；釘釘、SciMaster、國家超算互聯網等推出AI Agent，推動其在科研、辦公等場景落地，全方位提升應用效率與邊界，一起來回顧本週的AI新鮮事兒吧！

AI 大模型

OpenAI發佈新一代智能體編碼模型「GPT-5.2 Codex」，編碼能力升級

12月19日，OpenAI正式發佈了新一代智能體編碼模型「GPT-5.2 Codex」，該模型基於「GPT-5.2」構建，在長程任務執行、大規模代碼變更、Windows原生環境支持及網絡安全能力等方面實現系統性改進，通過上下文壓縮機制提升超長上下文利用效率，整合多代模型優勢，增強多模態輸入理解精度，在SWE-Bench Pro等基準測試中表現優於前代，已向付費ChatGPT用户開放並推進相關試點，網友反饋其編碼能力提升10%，但Token消耗較高，更適配中型企業。

Google開源「T5Gemma 2」與「FunctionGemma」雙端側小模型

12月19日，Google開源Gemma 3家族兩款端側小模型「T5Gemma 2」與「FunctionGemma」，前者為迴歸編碼器-解碼器架構的多模態長上下文模型（含270M-4B等規模），通過綁定嵌入、合併注意力機制優化效率，支持128K tokens長上下文與140餘種語言，在多模態、推理等基準測試中表現優於同類模型，藉助模型適配技術降低訓練成本；後者為2.7億參數的函數調用專用模型，可在手機、瀏覽器等端側設備運行，支持行動與對話一體化，經微調後移動端操作準確率從58%提升至85%，專注解決端側智能體工具調用需求。

NVIDIA開源通用遊戲基礎模型「NitroGen」，跨千款遊戲適配劍指具身智能

12月19日，NVIDIA開源通用遊戲基礎模型「NitroGen」，該模型基於GR00T N1.5架構改造，融合互聯網規模視頻-動作數據集、多遊戲基準評測環境與統一視覺-動作策略模型，由多遊戲基礎智能體、通用模擬器及4萬小時覆蓋1000+遊戲的開源數據集構成，以遊戲視頻幀為輸入輸出手柄操作信號，天然適配支持手柄的各類遊戲，具備跨遊戲零樣本遊玩能力及少量微調適配新遊戲的泛化潛力，在2D、3D等不同類型遊戲的戰鬥、導航等任務中表現出色，遷移至新遊戲時任務成功率較從零訓練最高提升52%，其數據集、評測套件及模型權重已同步開源。

通義千問推出全新圖像生成模型「Qwen-Image-Layered」

12月22日，通義千問推出全新圖像生成模型「Qwen-Image-Layered」，採用自研創新架構，通過RGBA-VAE、VLD-MMDiT等關鍵技術，將圖像分解為語義解耦且可獨立編輯的RGBA圖層，從根本上解決傳統圖像編輯的一致性不足、邊界模糊等問題，支持縮放、移動、着色、替換、刪除等多種精準編輯操作，還具備可變圖層數量及遞歸分解能力，相關技術報告、代碼、模型權重及Demo已公開。

Apple發佈多模態AI模型「UniGen 1.5」，集成三大能力對標閉源大模型

12月23日，Apple研究團隊發佈多模態AI模型「UniGen 1.5」，突破傳統“縫合怪”模式，首次在單一模型中集成圖像理解、生成與編輯三大核心能力；為解決AI修圖時指令理解不準的問題，Apple首創“編輯指令對齊”技術，讓模型先根據原圖和需求生成目標圖像的詳細文本描述再執行操作，大幅提升精準度，同時設計統一獎勵系統，確保生成與編輯遵循同一質量標準，增強穩健性。

智譜AI上線並開源「GLM-4.7」模型，編碼推理能力開源第一

12月23日，智譜AI上線並開源「GLM-4.7」模型，該模型在編碼、推理、工具調用等核心能力上實現顯著提升，前端審美與通用對話、創作能力也有所優化，在Code Arena全球編碼評測中位列開源第一、國產第一，超過GPT-5.2、Claude Sonnet 4.5等競品，目前已通過BigModel.cn提供API，在z.ai全棧開發模式中上線Skills模塊，支持多模態任務的統一規劃與協作，可通過智譜清言APP/網頁版等在線體驗。

稀宇科技發佈「MiniMax M2.1」模型，多語言編程能力達SOTA

12月23日，MiniMax稀宇科技發佈「MiniMax M2.1」模型，該模型聚焦真實世界複雜任務，在Rust、Java等多語言編程及Web/原生Android/iOS開發能力上實現躍升，強化了複合指令執行、Agent/工具泛化能力，回覆更簡潔高效且對話寫作質量優質，在VIBE綜合榜單以88.6分展現接近Claude Opus 4.5的全棧構建能力，可應用於全棧開發、辦公自動化、物理世界Agent等場景，目前已通過開放平台提供API、MiniMax Agent產品開放使用，Hugging Fac後續將全面開源權重，還推出M2.1-lightning高速版本並支持自動緩存，Coding Plan用户可免費享受更快推理速度。

通義百聆家族開源新一代語音交互模型「Fun-Audio-Chat-8B」

12月23日，通義百聆家族開源新一代語音交互模型「Fun-Audio-Chat-8B」，兼具高智商和高情商。該模型採用創新雙分辨率端到端設計，音頻幀率降至業界最低5Hz，通過壓縮-自迴歸-解壓縮架構節省近50%GPU計算，兼具高效低算力優勢；具備出色共情對話能力，無需情緒標籤可自動感知用户情緒，支持角色扮演和量身定製語音情緒、語速、音量等參數。

字節跳動Seed團隊推出形式化數學推理專用模型「Seed Prover 1.5」

12月24日，字節跳動Seed團隊推出新一代形式化數學推理專用模型「Seed Prover 1.5」，通過全新Agentic架構和大規模的Agentic RL訓練，其推理能力和推理效率顯著提升，在IMO 2025達金牌分數線，Putnam及Fate-H/X等評測集刷新SOTA；其Sketch Model可拆解複雜命題，搭配多智能體協作系統優化解題流程，目前技術報告、Lean證明代碼已公開，後續將開放API。

阿里升級Qwen3-TTS家族模型，發佈音色創造和音色克隆兩款新模型

12月24日，通義千問Qwen3-TTS家族新推出兩款模型，音色創造模型「Qwen3-TTS-VD-Flash」和音色克隆模型「Qwen3-TTS-VC-Flash」。前者支持自然語言指令精細化調控音色、韻律等，在相關評測中表現優於「GPT-4o-mini-tts」等競品，後者支持3秒級音色克隆且可生成10大主流語言，多語種詞錯誤率優於MiniMax等同類模型；兩款模型均具備高表現力擬人化音色與強大文本解析魯棒性，支持音色持久存儲與重複調用，可通過Qwen API調用，相關API文檔已同步公開。

技術突破

摩爾線程發佈全功能GPU架構「花港」及多款芯片、萬卡集羣新品

12月20日，科創板上市15天后的摩爾線程在開發者大會上集體亮相五年研究成果，發佈新一代全功能GPU架構「花港」（算力密度提升50%、能效提升10倍，支持10萬卡以上規模智算集羣，還搭載了第一代AI生成式渲染架構和第二代光線追蹤硬件加速引擎）及基於該架構的AI訓推一體GPU「華山」、高性能圖形渲染GPU「廬山」，還推出長江系列SoC芯片及MTT AIBOOK AI算力筆記本，上線基於平湖架構S5000的「誇娥」萬卡集羣（浮點運算能力達10Exa-Flops，訓練線性擴展效率95%）。

MiniMax首次開源海螺視頻底層技術「VTP」，創新提升生成模型性能

12月18日，MiniMax首次開源海螺視頻底層技術「VTP」（視覺分詞器預訓練框架），核心創新是關聯latents易學性與通用表徵學習，將tokenizer作為scaling的核心，展現出全面的scaling曲線和擴展方向，不修改下游主模型（如DiT）訓練過程，僅通過前置優化tokenizer實現端到端生成性能倍數提升，追求真實工業級環境的廣泛適用性而非過擬合特定場景。其技術思路融合了自監督、對比學習、重建等多種表徵學習方法，從頭預訓練tokenizer以實現極致表徵並保留scaling潛力，相關資源已公開，為生成統一模型構建、訓練數據分佈優化等提供新視角。

上海交大陳一彤團隊推出全球首款全光生成式AI芯片「LightGen」

12月22日消息，上海交大陳一彤團隊推出全球首款全光生成式AI芯片「LightGen」，相關研究登上《Science》。該芯片首次將光子計算拓展至大模型語義媒體生成領域，以光子編碼器、光學潛在空間（OLS）和光子生成器構成端到端全光架構，搭載無監督訓練算法BOGT與多生成器切換結構，可完整實現“輸入-理解-語義操控-生成”閉環，支持高分辨率圖像、3D（NeRF）、高清視頻生成及去噪、風格遷移等多項任務，無需切分圖像即可保持全局結構與連續特徵，其計算速度、能效及計算密度均遠超英偉達A100（整體性能高兩個數量級以上），為光子計算在AI領域的應用開闢了新路徑。

釘釘發佈全球首個工作智能操作系統「Agent OS」，併發布超20款AI新品

12月23日，釘釘正式推出全球首個為AI打造的工作智能操作系統「Agent OS」，同步發佈AI釘釘1.1版本「木蘭」，該系統以運行和協同AI Agent為核心，構建了包含新一代交互入口（釘釘ONE）、企業Agent專屬AI硬件（DingTalk Real）、AI搜索問答（AI搜問）、通用任務處理Agent （悟空）及企業AI平台（DEAP）在內的產品矩陣，發佈了超過20款AI產品，涵蓋製造業“訂單Agent、質量Agent、AI差旅、AI客服”等商業可交付Agent，同時迭代升級AI搜問、AI表格、DingTalk A1、AI聽記四大產品。

AI Agent

SciMaster團隊推出機器學習工程智能體「ML-Master-2.0」

12月23日，SciMaster團隊推出機器學習工程智能體「ML-Master-2.0」，該系統基於國產Deepseek-V3.2-Speciale開源大模型，以AI4AI範式重塑AI研發，引入超長程自主能力與層次化認知緩存機制，可端到端完成數據處理、建模、調參等全流程ML工程任務，在OpenAI MLE-Bench基準測試中以56.44%的獎牌率登頂全球第一，擊敗Google、Meta等團隊，已落地具身智能機器人訓練、理論物理模擬等場景，核心代碼已開源，後續將通過SciMaster平台開放產品形態。

Anthropic官方開源「Agent Skills」知識庫，包含16個生產級技能庫

12月23日，Anthropic官方開源「Agent Skills」知識庫，包含16個生產級技能庫，並非簡單的Prompt集合，涵蓋文檔處理（Word/Excel/PPT/PDF 生成編輯、協同編輯）、創意設計（算法藝術、前端設計等）、開發技術（Web應用測試、MCP構建）、企業溝通及元技能 “skill-creator”（降低自定義門檻），可處理複雜生產級任務，證明AI Agent的專業化能力，可幫助開發者更好地利用Claude模型進行各類應用。

國家超算互聯網正式發佈「科學計算智能體」，自然語言交互完成科研全流程

12月23日，國家超算互聯網正式發佈「科學計算智能體」，該智能體通過自然語言交互可自動完成科研任務全流程，將傳統1天的工作縮短至約1小時，已覆蓋近百個高頻科研計算場景、三大學科及數十款計算軟件，並依託超算互聯網AI社區“智能體廣場”與知識庫體系，構建了120餘個行業知識庫，覆蓋人工智能、AI4S、工業仿真、材料科學等七大應用場景，大幅降低科學計算門檻並提升科研效率。

AI 工具

Second Me發佈1.1版本重塑對話框，推送「AI合拍」等多種玩法

12月24日消息，Second Me發佈 1.1版本，以AI主動性重塑對話框，讓交流從“被動回覆”升級為“主動交付”，可根據上下文和情緒温度主動推送「AI合拍」、「Rap Battle」等社交玩法。每個人的Second Me可調用真實身份信息和記憶創作內容，AI從“社交圖譜”升級為“Context圖譜”，連接介質從標籤轉向動態分層記憶模型，支持嚴格的記憶邊界劃分確保隱私安全。

字節跳動旗下的TRAE中國版SOLO模式面向全部用户免費開放

12月24日，字節跳動旗下的TRAE中國版推出年終回饋活動，其SOLO模式將逐步面向全部用户免費開放（24日至25日）。用户只需將TRAE中國版IDE更新至V3.3.10或以上版本，即可在開發過程中體驗該模式的便捷功能。同時新增Doubao-Seed-Code、GLM-4.7等6個內置模型供大家按需選擇，產品將根據模型的效果和速度，自動為用户配置最佳的上下文窗口大小，助力高效開發。

MIAOYUN 博客

MIAOYUN 博客

博客 / 詳情