Stories

Detail Return Return

MIAOYUN | 每週AI新鮮事兒(10.17-10.24) - Stories Detail

本週AI領域動態頻出,百度、阿里、DeepSeek推出高效OCR與視覺語言模型,提升文檔解析與多模態能力;騰訊、字節跳動分別開源世界模型與3D生成模型,推動3D內容生成;Anthropic、OpenAI、Google升級AI工具,聚焦生命科學、瀏覽器集成與開發體驗;華為鴻蒙6、宇樹機器人H2及多項評測基準發佈,推動AI向終端與實體場景加速落地,一起來回顧本週發生的AI新鮮事兒吧!

AI 大模型

百度最新模型「PaddleOCR-VL」登頂HuggingFace Trending

10月17日,百度最新自研的多模態文檔解析模型「PaddleOCR-VL」,以0.9B參數量,在全球權威榜單OmniDocBench V1.5中以92.6分奪得綜合性能第一,橫掃文本識別、公式識別、表格理解與閲讀順序四項SOTA。該模型融合了NaViT動態分辨率視覺編碼器與「ERNIE-4.5-0.3B」語言模型,實現了精度與效率雙突破,能以極低計算開銷精準識別文本、手寫漢字、表格、公式、圖表等複雜元素,支持109種語言。

靈感實驗室團隊聯合LMMs-Lab提出「LLaVA-OneVision-1.5」

10月17日,靈感實驗室團隊聯合LMMs-Lab提出「LLaVA-OneVision-1.5」,繼承並擴展LLaVA 系列,旨在構建開放高效的訓練體系,使開發者能低成本復現高性能視覺語言模型。該模型創新採用離線並行數據打包技術,實現11倍數據壓縮比,僅用3.7天即完成8500萬樣本訓練。搭載RICE-ViT視覺編碼器,支持原生分辨率與區域級細粒度語義建模、強化圖表/文檔/結構化場景理解,通過“概念均衡”採樣策略確保任務泛化能力,8B參數版本在27項基準測試中全面超越「Qwen2.5-VL」。

DeepSeek團隊開源新視覺語言模型「DeepSeek-OCR」

10月20日,DeepSeek團隊開源了一款視覺語言模型「DeepSeek-OCR」,參數量為3B,是通過光學二維映射技術壓縮長文本上下文可行性的初步探索,僅需100個視覺Token即可解碼10倍以上文本信息,在OmniDocBench基準測試中超越傳統OCR模型。該模型主要由編碼器(DeepEncoder)和解碼器(DeepSeek3B-MoE-A570M)兩大核心組件構成,支持動態分辨率輸入和多語言處理。

阿里通義實驗室推出「Qwen3-VL」輕量級雙模型

10月22日,阿里通義實驗室正式推出「Qwen3-VL」系列新成員,新增2B與32B兩個參數規模的密集(Dense)型視覺語言模型,填補從移動端到雲端的應用空白。其中,「Qwen3-VL-2B」專為端側設備優化,在手機、平板等低算力環境中仍保持高效響應,適合本地化部署;而32B版本在長鏈推理、複雜圖像理解方面表現卓越,具備“看圖思考”能力,可精準解析圖表、文檔甚至UI界面內容。

科大訊飛開源星火科技文獻大模型「Spark-Scilit-X1-13B」

10月22日,科大訊飛星火科技文獻大模型「Spark-Scilit-X1-13B」在GitCode和魔搭社區(ModelScope)上開源,助力科研智能化發展,為科研領域創新提供驅動力。該模型基於訊飛星火X1-0720大模型,在海量高質量科技文獻數據上進行訓練,採用多階段訓練技術,兼顧科研能力與通用性;並將長思維鏈深度思考和無思維鏈快思考進行結合訓練,是支持快思考和慢思考的統一模型。

騰訊混元世界模型1.1版本「WorldMirror」正式發佈並開源

10月22日,騰訊混元世界模型1.1版本「WorldMirror」正式發佈並開源,首次同時支持多模態先驗注入和多任務統一輸出的端到端3D重建。該模型採用純前饋架構實現秒級推理,處理8-32視圖輸入僅需1秒,單卡即可部署,在SimplerEnv、CALVIN等仿真器及真實物理世界任務中性能顯著超越現有方法。

百川智能發佈了循證增強醫療大模型「Baichuan-M2 Plus」

10月22日,百川智能發佈了循證增強醫療大模型「Baichuan-M2 Plus」,同步升級配套應用百小應並開放API。評測顯示,該模型的醫療幻覺率較通用大模型顯著降低,相比DeepSeek低約3倍,在美、日、英的醫療評測中均超過最火醫療產品OpenEvidence,可信度接近資深臨牀專家。「Baichuan-M2 Plus」首創六源循證推理(EAR)範式,打造“醫生版ChatGPT”,讓大模型技術在輔助臨牀診療場景邁過“敢用、可用”關鍵門檻。

字節跳動Seed團隊推出3D生成大模型「Seed3D 1.0」

10月23日,字節跳動Seed團隊推出3D生成大模型「Seed3D 1.0」,實現從單張圖像到高質量仿真級3D模型的端到端生成。該模型基於創新的Diffusion Transformer架構,通過大規模數據訓練完成,可生成包括精細幾何、真實紋理和基於物理渲染(PBR)材質的完整3D模型。

AI 工具

生數科技Vidu Q2「參考生」正式發佈,APP全新改版

10月21日,生數科技Vidu Q2「參考生」視頻再次進化,聚焦於高一致性,速度更快,價格更優惠三大核心,致力於滿足專業及半專業創作者日益增長的高想象力內容創作需求。此次升級Vidu首次上線了「視頻延長」功能,最長可擴展至5分鐘;生成速度更快,實現單任務推理速度相較Vidu Q1「參考生」提升3倍。此外,Vidu APP全新改版上線,用户只需把專業繁瑣的提示詞變為@主體 +一句話描述,即可生成視頻素材,還有海量主體庫可供選擇,人人都可二次創作。

Anthropic上線Claude生命科學版「Claude for Life Sciences」

10月21日,Anthropic上線Claude生命科學版「Claude for Life Sciences」,並推出一系列改進措施,旨在推動人工智能在生物技術領域的應用。該系統基於「Claude Sonnet 4.5」模型,集成了多種生命科學研究工具,如Benchling、PubMed和BioRender,支持高效的科研流程。其新功能Claude Skills可將科學流程轉化為AI自動化工作流,提升數據處理效率。此外,Anthropic發佈了覆蓋多種科研場景的提示庫,並與多家制藥公司合作,顯著縮短臨牀文檔編制時間。

OpenAI發佈AI瀏覽器「ChatGPT Atlas」

10月22日,OpenAI發佈AI瀏覽器「ChatGPT Atlas」,基於Chromium內核,目前僅推出macOS版,對所有用户免費開放,後續將推出Windows及移動端版本。「ChatGPT Atlas」核心功能是將ChatGPT深度集成到瀏覽器,可查看用户頁面內容並通過側邊欄回答問題,配備瀏覽器記憶(Browser memories)功能和智能體模式(Agent Mode),可執行訂票、購物等複雜任務。此外,OpenAI強調安全措施包括禁止運行代碼、訪問敏感網站時暫停確認等,但承認智能體仍存在被惡意指令誤導的風險。

Anthropic正式發佈了「Claude Desktop」,隨時隨地召喚Claude

10月22日,Anthropic正式發佈了桌面版「Claude Desktop」(之前是預覽版),主打“隨時隨地召喚Claude”,同時支持Mac和Windows系統。該桌面版提供全局快捷鍵(Mac雙擊Option隨時喚醒)、窗口分享、語音輸入(按Caps Lock説話)和連接工具(代碼編輯器、本地文件和數據庫)四大核心功能。與OpenAI的「Atlas」瀏覽器不同,「Claude Desktop」是常規桌面助手而非具備Agent Mode的瀏覽器,但操作順手且實用性強。

Google推出AI Studio全新「Vibe Coding」功能與AI學習平台「Google Skills」

10月22日,Google全面升級AI Studio平台,推出了全新的「Vibe Coding」功能,可以一鍵生成AI應用。新界面集成模塊化“超級能力”組件,用户只需點擊即可添加媒體編輯、深度推理、加速響應等功能。平台新增應用程序庫,未來或將開放社區共享機制。秘密變量支持保障敏感信息存儲安全,一鍵部署直達Google Cloud運行環境,生成實時訪問鏈接。此外,Google還推出了AI學習平台「Google Skills」,有超過3000門課程,整合了Google Cloud、DeepMind、Google for Education等資源,涵蓋AI技術與倫理等內容,幫助人們提高AI技能。

快手StreamLake正式推出「工具+模型+平台」三位一體AI編程產品矩陣

10月23日,快手StreamLake正式推出「工具+模型+平台」三位一體AI編程產品矩陣,包括智能開發工具「CodeFlicker」、高性能自研模型「KAT-Coder」以及大模型平台快手萬擎「Vanchin」,致力於為企業和開發者構建一個閉環、高效、普惠的AI編程新生態。其中「KAT-Coder-Air V1」版本將面向所有用户免費使用。

技術突破

美團LongCat團隊發佈了「VitaBench」評測基準

10月20日,美團LongCat團隊發佈了「VitaBench」評測基準,針對大模型智能體在真實生活場景中的複雜任務能力進行系統評估。該基準以外賣點餐、餐廳就餐、旅遊出行三大高頻生活場景為典型載體,構建了一個包含66個工具的交互式評測環境,並設計了跨場景綜合任務。該基準首次從推理、工具調用與用户交互三大維度量化任務複雜度;實驗顯示,當前領先模型在跨場景主榜任務中成功率僅30%,暴露智能體應對真實場景的短板。

華為發佈「HarmonyOS 6」系統,支持與Mac、iPhone互傳互聯

10月22日,華為發佈了最新的「HarmonyOS 6」系統,支持與Mac、iPhone互傳互聯,系統速度進一步提升,相較於「HarmonyOS 5」流暢度提升15%,續航也提升35-51分鐘;應用啓動速度提升11%,頁面加載提升21%,內容加載提升30%,並且提供更細膩的過場動畫。同時,小藝助手升級為系統級AI智能體(Agent),支持語音觸發多條件任務自動執行(如網購、訂票)、AI一鍵成片、方言自由對話(支持16種方言)、錄音轉寫摘要、備忘錄速記等,實現能聽、能答、會思考,首發擁有80多個應用智能體。

Google全新的量子回聲「Quantum Echoes 」算法首次可驗證

當地時間10月22日,Google在《Nature》雜誌披露其全新的量子回聲「Quantum Echoes 」算法在Willow芯片上運行,解決原子相互作用問題的速度比最好的傳統超級計算機快13000倍,在數小時內完成了需要Frontier超級計算機大約3.2年才能完成的計算。這是歷史上首次證明量子計算機可在硬件上成功運行一項可驗證算法,這一研究成果被視為推動量子計算機走向應用的又一個里程碑。

LangChain團隊正式發佈「LangChain 1.0」與「LangGraph 1.0」

10月23日,LangChain團隊正式發佈「LangChain 1.0」與「LangGraph 1.0」,這是這兩大框架的首個主要版本,標誌着AI Agent開發正式進入“工程化”階段。同步上線的,還有全新設計的文檔站點,首次將Python與JavaScript文檔完全整合。

市場動態

微軟宣佈OpenAI的視頻生成模型「Sora 2」上線Azure AI Foundry國際版

10月17日,微軟正式宣佈OpenAI的視頻生成模型「Sora 2」已在Azure AI Foundry國際版上線,並開放API接口。「Sora 2」支持文本、圖像、視頻等多種輸入方式,可直接生成高質量視頻內容,適用於廣告製作、教育素材、社交媒體內容生產等多個領域,極大簡化傳統拍攝與剪輯流程。定價方面採取按秒收費模式,每秒0.1美元。

宇樹科技發佈「H2」仿生人形機器人,高180cm,重70kg

10月20日,宇樹科技發佈「H2」仿生人形機器人,高180cm,重70kg。和前代相比,「H2」無論是在運動流暢性、還是仿生特徵上,都有了相當大的升級。首先重量上,「H2」的重量從「H1」的41kg突破到了70kg,更趨近正常水平;其次關節總數累計達到了31個,對比7月份發佈的「R1」關節26個提升約19%;最後賦予了「H2」“人臉”,更接近人類。70kg的重量沒有讓「H2」變得更笨重,反而在完成各類動作上更加流暢,移動能力以及關節控制都更像人類的行動,能優雅流暢的表演芭蕾舞蹈和中國武術。

user avatar u_15511034 Avatar aitinggedejinzhengu Avatar definecloud Avatar openfuyao Avatar elhix0bg Avatar k21vin Avatar u_16640205 Avatar whaosoft143 Avatar sovitjs Avatar u_17397181 Avatar candy_68fb0dfb0afd0 Avatar alijishu Avatar
Favorites 53 users favorite the story!
Favorites

Add a new Comments

Some HTML is okay.