本週AI領域聚焦模型升級、底層技術突破與應用生態拓展。OpenAI、阿里通義、智譜AI、字節跳動等持續強化模型專業化與多模態能力,編碼、圖像生成、語音交互等模型性能顯著提升;硬件與底層框架創新涌現,摩爾線程、上海交大等實現GPU架構、全光AI芯片突破;釘釘、SciMaster、國家超算互聯網等推出AI Agent,推動其在科研、辦公等場景落地,全方位提升應用效率與邊界,一起來回顧本週的AI新鮮事兒吧!
AI 大模型
OpenAI發佈新一代智能體編碼模型「GPT-5.2 Codex」,編碼能力升級
12月19日,OpenAI正式發佈了新一代智能體編碼模型「GPT-5.2 Codex」,該模型基於「GPT-5.2」構建,在長程任務執行、大規模代碼變更、Windows原生環境支持及網絡安全能力等方面實現系統性改進,通過上下文壓縮機制提升超長上下文利用效率,整合多代模型優勢,增強多模態輸入理解精度,在SWE-Bench Pro等基準測試中表現優於前代,已向付費ChatGPT用户開放並推進相關試點,網友反饋其編碼能力提升10%,但Token消耗較高,更適配中型企業。
Google開源「T5Gemma 2」與「FunctionGemma」雙端側小模型
12月19日,Google開源Gemma 3家族兩款端側小模型「T5Gemma 2」與「FunctionGemma」,前者為迴歸編碼器-解碼器架構的多模態長上下文模型(含270M-4B等規模),通過綁定嵌入、合併注意力機制優化效率,支持128K tokens長上下文與140餘種語言,在多模態、推理等基準測試中表現優於同類模型,藉助模型適配技術降低訓練成本;後者為2.7億參數的函數調用專用模型,可在手機、瀏覽器等端側設備運行,支持行動與對話一體化,經微調後移動端操作準確率從58%提升至85%,專注解決端側智能體工具調用需求。
NVIDIA開源通用遊戲基礎模型「NitroGen」,跨千款遊戲適配劍指具身智能
12月19日,NVIDIA開源通用遊戲基礎模型「NitroGen」,該模型基於GR00T N1.5架構改造,融合互聯網規模視頻-動作數據集、多遊戲基準評測環境與統一視覺-動作策略模型,由多遊戲基礎智能體、通用模擬器及4萬小時覆蓋1000+遊戲的開源數據集構成,以遊戲視頻幀為輸入輸出手柄操作信號,天然適配支持手柄的各類遊戲,具備跨遊戲零樣本遊玩能力及少量微調適配新遊戲的泛化潛力,在2D、3D等不同類型遊戲的戰鬥、導航等任務中表現出色,遷移至新遊戲時任務成功率較從零訓練最高提升52%,其數據集、評測套件及模型權重已同步開源。
通義千問推出全新圖像生成模型「Qwen-Image-Layered」
12月22日,通義千問推出全新圖像生成模型「Qwen-Image-Layered」,採用自研創新架構,通過RGBA-VAE、VLD-MMDiT等關鍵技術,將圖像分解為語義解耦且可獨立編輯的RGBA圖層,從根本上解決傳統圖像編輯的一致性不足、邊界模糊等問題,支持縮放、移動、着色、替換、刪除等多種精準編輯操作,還具備可變圖層數量及遞歸分解能力,相關技術報告、代碼、模型權重及Demo已公開。
Apple發佈多模態AI模型「UniGen 1.5」,集成三大能力對標閉源大模型
12月23日,Apple研究團隊發佈多模態AI模型「UniGen 1.5」,突破傳統“縫合怪”模式,首次在單一模型中集成圖像理解、生成與編輯三大核心能力;為解決AI修圖時指令理解不準的問題,Apple首創“編輯指令對齊”技術,讓模型先根據原圖和需求生成目標圖像的詳細文本描述再執行操作,大幅提升精準度,同時設計統一獎勵系統,確保生成與編輯遵循同一質量標準,增強穩健性。
智譜AI上線並開源「GLM-4.7」模型,編碼推理能力開源第一
12月23日,智譜AI上線並開源「GLM-4.7」模型,該模型在編碼、推理、工具調用等核心能力上實現顯著提升,前端審美與通用對話、創作能力也有所優化,在Code Arena全球編碼評測中位列開源第一、國產第一,超過GPT-5.2、Claude Sonnet 4.5等競品,目前已通過BigModel.cn提供API,在z.ai全棧開發模式中上線Skills模塊,支持多模態任務的統一規劃與協作,可通過智譜清言APP/網頁版等在線體驗。
稀宇科技發佈「MiniMax M2.1」模型,多語言編程能力達SOTA
12月23日,MiniMax稀宇科技發佈「MiniMax M2.1」模型,該模型聚焦真實世界複雜任務,在Rust、Java等多語言編程及Web/原生Android/iOS開發能力上實現躍升,強化了複合指令執行、Agent/工具泛化能力,回覆更簡潔高效且對話寫作質量優質,在VIBE綜合榜單以88.6分展現接近Claude Opus 4.5的全棧構建能力,可應用於全棧開發、辦公自動化、物理世界Agent等場景,目前已通過開放平台提供API、MiniMax Agent產品開放使用,Hugging Fac後續將全面開源權重,還推出M2.1-lightning高速版本並支持自動緩存,Coding Plan用户可免費享受更快推理速度。
通義百聆家族開源新一代語音交互模型「Fun-Audio-Chat-8B」
12月23日,通義百聆家族開源新一代語音交互模型「Fun-Audio-Chat-8B」,兼具高智商和高情商。該模型採用創新雙分辨率端到端設計,音頻幀率降至業界最低5Hz,通過壓縮-自迴歸-解壓縮架構節省近50%GPU計算,兼具高效低算力優勢;具備出色共情對話能力,無需情緒標籤可自動感知用户情緒,支持角色扮演和量身定製語音情緒、語速、音量等參數。
字節跳動Seed團隊推出形式化數學推理專用模型「Seed Prover 1.5」
12月24日,字節跳動Seed團隊推出新一代形式化數學推理專用模型「Seed Prover 1.5」,通過全新Agentic架構和大規模的Agentic RL訓練,其推理能力和推理效率顯著提升,在IMO 2025達金牌分數線,Putnam及Fate-H/X等評測集刷新SOTA;其Sketch Model可拆解複雜命題,搭配多智能體協作系統優化解題流程,目前技術報告、Lean證明代碼已公開,後續將開放API。
阿里升級Qwen3-TTS家族模型,發佈音色創造和音色克隆兩款新模型
12月24日,通義千問Qwen3-TTS家族新推出兩款模型,音色創造模型「Qwen3-TTS-VD-Flash」和音色克隆模型「Qwen3-TTS-VC-Flash」。前者支持自然語言指令精細化調控音色、韻律等,在相關評測中表現優於「GPT-4o-mini-tts」等競品,後者支持3秒級音色克隆且可生成10大主流語言,多語種詞錯誤率優於MiniMax等同類模型;兩款模型均具備高表現力擬人化音色與強大文本解析魯棒性,支持音色持久存儲與重複調用,可通過Qwen API調用,相關API文檔已同步公開。
技術突破
摩爾線程發佈全功能GPU架構「花港」及多款芯片、萬卡集羣新品
12月20日,科創板上市15天后的摩爾線程在開發者大會上集體亮相五年研究成果,發佈新一代全功能GPU架構「花港」(算力密度提升50%、能效提升10倍,支持10萬卡以上規模智算集羣,還搭載了第一代AI生成式渲染架構和第二代光線追蹤硬件加速引擎)及基於該架構的AI訓推一體GPU「華山」、高性能圖形渲染GPU「廬山」,還推出長江系列SoC芯片及MTT AIBOOK AI算力筆記本,上線基於平湖架構S5000的「誇娥」萬卡集羣(浮點運算能力達10Exa-Flops,訓練線性擴展效率95%)。
MiniMax首次開源海螺視頻底層技術「VTP」,創新提升生成模型性能
12月18日,MiniMax首次開源海螺視頻底層技術「VTP」(視覺分詞器預訓練框架),核心創新是關聯latents易學性與通用表徵學習,將tokenizer作為scaling的核心,展現出全面的scaling曲線和擴展方向,不修改下游主模型(如DiT)訓練過程,僅通過前置優化tokenizer實現端到端生成性能倍數提升,追求真實工業級環境的廣泛適用性而非過擬合特定場景。其技術思路融合了自監督、對比學習、重建等多種表徵學習方法,從頭預訓練tokenizer以實現極致表徵並保留scaling潛力,相關資源已公開,為生成統一模型構建、訓練數據分佈優化等提供新視角。
上海交大陳一彤團隊推出全球首款全光生成式AI芯片「LightGen」
12月22日消息,上海交大陳一彤團隊推出全球首款全光生成式AI芯片「LightGen」,相關研究登上《Science》。該芯片首次將光子計算拓展至大模型語義媒體生成領域,以光子編碼器、光學潛在空間(OLS)和光子生成器構成端到端全光架構,搭載無監督訓練算法BOGT與多生成器切換結構,可完整實現“輸入-理解-語義操控-生成”閉環,支持高分辨率圖像、3D(NeRF)、高清視頻生成及去噪、風格遷移等多項任務,無需切分圖像即可保持全局結構與連續特徵,其計算速度、能效及計算密度均遠超英偉達A100(整體性能高兩個數量級以上),為光子計算在AI領域的應用開闢了新路徑。
釘釘發佈全球首個工作智能操作系統「Agent OS」,併發布超20款AI新品
12月23日,釘釘正式推出全球首個為AI打造的工作智能操作系統「Agent OS」,同步發佈AI釘釘1.1版本「木蘭」,該系統以運行和協同AI Agent為核心,構建了包含新一代交互入口(釘釘ONE)、企業Agent專屬AI硬件(DingTalk Real)、AI搜索問答(AI搜問)、通用任務處理Agent (悟空)及企業AI平台(DEAP)在內的產品矩陣,發佈了超過20款AI產品,涵蓋製造業“訂單Agent、質量Agent、AI差旅、AI客服”等商業可交付Agent,同時迭代升級AI搜問、AI表格、DingTalk A1、AI聽記四大產品。
AI Agent
SciMaster團隊推出機器學習工程智能體「ML-Master-2.0」
12月23日,SciMaster團隊推出機器學習工程智能體「ML-Master-2.0」,該系統基於國產Deepseek-V3.2-Speciale開源大模型,以AI4AI範式重塑AI研發,引入超長程自主能力與層次化認知緩存機制,可端到端完成數據處理、建模、調參等全流程ML工程任務,在OpenAI MLE-Bench基準測試中以56.44%的獎牌率登頂全球第一,擊敗Google、Meta等團隊,已落地具身智能機器人訓練、理論物理模擬等場景,核心代碼已開源,後續將通過SciMaster平台開放產品形態。
Anthropic官方開源「Agent Skills」知識庫,包含16個生產級技能庫
12月23日,Anthropic官方開源「Agent Skills」知識庫,包含16個生產級技能庫,並非簡單的Prompt集合,涵蓋文檔處理(Word/Excel/PPT/PDF 生成編輯、協同編輯)、創意設計(算法藝術、前端設計等)、開發技術(Web應用測試、MCP構建)、企業溝通及元技能 “skill-creator”(降低自定義門檻),可處理複雜生產級任務,證明AI Agent的專業化能力,可幫助開發者更好地利用Claude模型進行各類應用。
國家超算互聯網正式發佈「科學計算智能體」,自然語言交互完成科研全流程
12月23日,國家超算互聯網正式發佈「科學計算智能體」,該智能體通過自然語言交互可自動完成科研任務全流程,將傳統1天的工作縮短至約1小時,已覆蓋近百個高頻科研計算場景、三大學科及數十款計算軟件,並依託超算互聯網AI社區“智能體廣場”與知識庫體系,構建了120餘個行業知識庫,覆蓋人工智能、AI4S、工業仿真、材料科學等七大應用場景,大幅降低科學計算門檻並提升科研效率。
AI 工具
Second Me發佈1.1版本重塑對話框,推送「AI合拍」等多種玩法
12月24日消息,Second Me發佈 1.1版本,以AI主動性重塑對話框,讓交流從“被動回覆”升級為“主動交付”,可根據上下文和情緒温度主動推送「AI合拍」、「Rap Battle」等社交玩法。每個人的Second Me可調用真實身份信息和記憶創作內容,AI從“社交圖譜”升級為“Context圖譜”,連接介質從標籤轉向動態分層記憶模型,支持嚴格的記憶邊界劃分確保隱私安全。
字節跳動旗下的TRAE中國版SOLO模式面向全部用户免費開放
12月24日,字節跳動旗下的TRAE中國版推出年終回饋活動,其SOLO模式將逐步面向全部用户免費開放(24日至25日)。用户只需將TRAE中國版IDE更新至V3.3.10或以上版本,即可在開發過程中體驗該模式的便捷功能。同時新增Doubao-Seed-Code、GLM-4.7等6個內置模型供大家按需選擇,產品將根據模型的效果和速度,自動為用户配置最佳的上下文窗口大小,助力高效開發。