輪次檢測模型 VoTurn-80M 開源，多模態融合架構；OpenAI 收購桌面助手 Sky：實時識別屏幕自然語言交互丨日報 Detail - 人工智能 RTE開發者社區 Blog

開發者朋友們大家好：

這裏是 「RTE 開發者日報」，每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@Jerry fong，@鮑勃

01 有話題的技術

1、ModelScope 開發者開源「AI 眼鏡」：搭載 Qwen Omni，賦能視障人士「聽」見世界

在 ModelScope 的「AI 向善」競賽中，開發者帆哥設計了一款輕便的眼鏡，讓用户能夠實時「聽」到世界。它們可以報交通信號燈、識別產品，並提供引導。

眼鏡通過複雜的軟硬件、雲邊架構運行。

✅ Qwen Omni 構成了基礎，確保<1s 對話響應性通過超低延遲推理。

✅ 這結合了專門用於識別障礙物、路徑和交通信號的自定義 YOLO 圖像模型。

✅ 通過將光流算法與自定義導航策略相結合，該系統以每秒 20 幀的速度提供近乎實時的路徑規劃反饋。

關鍵的是，開發過程由實際反饋驅動。開發者帆哥親自佩戴眼鏡，體驗了一天的視障人士街道生活，並邀請了上海楊浦區盲人協會主席參與測試。這種親身實踐的真實用户反饋促成了多次關鍵迭代和優化，進展仍在繼續。

該項目所有代碼、硬件清單、3D 外殼模型以及 AI 眼鏡的部署教程現已在 ModelScope 上開源。

（🔗 :
https://modelscope.cn/models/archifancy/AIGlasses_for_navigation）

(@ModelScope)

2、Vogent 發佈 VoTurn-80M 模型，用 80M 參數解決語音智能體「何時迴應」難題

Vogent 發佈了 VoTurn-80M，一款專為語音智能體設計的開源「輪次檢測」模型。該模型創新地結合了音頻和文本兩種模態，以解決傳統方案中「何時迴應」的難題，在實現 94.1% 準確率的同時，將延遲控制在 7ms，旨在讓 AI 對話體驗更自然流暢。

多模態融合架構： VoTurn-80M 的核心突破在於其多模態設計。它不僅通過 Whisper 編碼器分析音頻信號中的語調、停頓和節奏，還結合對話上下文的文本信息進行綜合判斷。這使得模型能區分「思考時的停頓」和「真正結束的回答」，大幅提升了交互的智能性。
高效的輕量化模型：該模型基於 SmolLM2-135M，並通過模型燒蝕（ablation）技術精簡至僅 ～80M 參數。這一優化在不犧牲準確率的前提下，顯著降低了計算需求，使其能夠在消費級硬件上實現實時推理，非常適合實際應用部署。
實時性能與高準確率：在 NVIDIA T4 GPU 上， VoTurn-80M 的單次推理延遲僅為～7ms，遠低於人類感知的閾值，確保了對話的即時響應。同時，其準確率達到了 94.1%，在精度和速度之間取得了出色的平衡。
精心構建的訓練數據集：為應對真實對話的複雜性，Vogent 結合了真人錄製的自然對話數據和系統性生成的合成數據。合成數據特別關注了易導致誤判的邊緣場景，如包含「嗯……啊……」的猶豫、多子句的回答、列表式列舉等，增強了模型的魯棒性。

GitHub 倉庫：

https://github.com/vogent/vogent-turn

(@Vogent Blog)

02有亮點的產品

1、OpenAI 收購 Mac 端 AI 界面 Sky，巨頭佈局消費級 AI 再落一子

今天，OpenAI 宣佈收購了一家名為 Software Applications 的初創公司，這家公司由多位蘋果資深員工創辦，致力於打造一款面向 Mac 的 AI 驅動用户界面。彭博社分析道，這筆收購是 OpenAI 在讓 AI「更好地在電腦上完成任務」方面邁出的重要一步。

作為此次收購的一部分，OpenAI 將把 Software Applications 打造的 AI 助手 Sky 整合進 ChatGPT，包括這款產品在 macOS 上的集成能力與其產品設計理念。同時，Software Applications 的整個團隊將加入 OpenAI。交易的具體財務條款尚未披露。

Software Applications 此前曾於 2023 年 1 月獲得 650 萬美元的種子輪融資，投資方包括 OpenAI 首席執行官 Sam Altman 與 Figma CEO Dylan Field 等知名人士。OpenAI 特別強調，此次收購 Software Applications 由公司兩位其他高管主導，並經獨立交易與審計委員會批准。

今年早些時候，Software Applications 發佈了名為「Sky」的 AI 助手，能夠幫助用户在 Mac 上執行任務或回答問題，如寫作、規劃、編程等。該功能採用懸浮式界面設計，可理解用户屏幕上的內容，並直接使用應用程序來執行任務。目前 Sky 尚未面向公眾開放。

值得注意的是，Software Applications 的創始人團隊此前已經有過一次引人注目的成功套現。

Software Applications 的聯合創始人兼 CEO 為 Ari Weinstein，聯合創始人兼 CTO 為 Conrad Kramer。二人在 2013 年左右共同創立了自動化應用 Workflow，並在 2017 年將其出售給蘋果。

這款應用後來演變成如今 iPhone 和 Mac 上廣受歡迎的 「快捷指令」（Shortcuts）技術 。在被蘋果收購後，他們都在蘋果工作了一段時間，隨後於 2023 年 8 月離職創辦了 Software Applications。

OpenAI 近期正積極通過併購擴展版圖。今年早些時候，公司在一輪二級市場股份交易中估值已達到 5000 億美元。此後，OpenAI 以 11 億美元收購了產品測試公司 Statsig，並完成了約 65 億美元收購由前蘋果設計總監 Jony Ive 共同創辦的 AI 硬件初創公司——這兩筆交易均為全股票交易。此外，OpenAI 還進行了多項較小規模的收購。

通過吸納 Software Applications 團隊的產品能力與 macOS 的深度集成經驗，OpenAI 或許希望進一步推動 ChatGPT 從對話式 AI 進化為真正能理解上下文、操作系統和用户意圖的個人助手。

（@智東西）

2、微軟推出 Copilot 語音模式的新虛擬角色 Mico，AI 版大眼夾助手首次亮相

彩蛋：如果您多次點擊 Mico，它就會改變形狀並最終變成 Clippy。

距離微軟經典的 Office 大眼夾助手 Clippy 首次亮相已近 30 年，儘管 Clippy 在 2001 年 Office XP 時代被「退休」，之後微軟曾嘗試以 Windows Phone 平台上的 Cortana 延續智能助手理念，但當時的技術尚未成熟。如今，微軟再次嘗試，通過 Copilot 語音模式引入新的虛擬角色——Mico。

微軟 AI 部門產品與增長副總裁 Jacob Andreou 談到：「大眼夾的出現是為了讓我們邁步向前。」據介紹，微軟已測試 Mico 數月。這一角色能在語音交互時實時呈現表情，默認啓用，用户也可選擇關閉這隻「彈跳小球」。

Mico 會根據用户説話內容實時變化表情。例如，當用户談論悲傷話題時，Mico 的表情也會立即表現出相應情緒。「所有技術都退居幕後，你只需與這個可愛的球體對話，逐漸建立情感聯繫。」Andreou 説。

首批上線地區包括美國、英國和加拿大。Mico 依託 Copilot 新記憶功能，可調用與用户相關的事實和工作內容。

微軟還在 Mico 中加入了「Learn Live」模式，能將 Mico 變身為蘇格拉底式導師，鼓勵引導式學習，而非直接給出答案。該模式利用互動白板和視覺提示，特別面向備戰考試的學生或練習新語言的用户。

微軟 AI 首席執行官 Mustafa Suleyman 曾表示，Copilot 未來將擁有固定形象、獨立空間與「成長」過程。Mico 正是微軟賦予 Copilot 身份感的重要一步。

此外，微軟近期開展了「讓人們與電腦對話」的新計劃，在電視廣告中力推 Windows 11 電腦為「可對話的電腦」。此前微軟在 Windows 10 嘗試推廣 Cortana，也最終在 Windows 11 被關閉。

相比大眼夾和 Cortana，Mico 擁有更強能力。但微軟仍面臨勸服用户接受與電腦、手機對話為自然而非尷尬的新挑戰。和前作一樣，Mico 也藏有彩蛋，比如快速點擊 Mico 會激發特殊效果——Andreou 笑言：「在某種意義上，我們都生活在大眼夾的陰影下。」

（@cnBeta、@testingcatalog\@X）

03有態度的觀點

1、A16Z：AI 視頻模型不會一家獨大，產品層才是最大機會

風險投資機構 A16Z 近日發表文章指出，AI 視頻生成領域不會出現「一家通吃」的「神級模型」，而是逐漸走向專業化與產品化階段。

A16Z 合夥人 Justine Moore 在文章中表示，早期行業競爭主要集中在 benchmark 指標，如生成時長、物理效果和逼真度，但如今不同模型已開始分工明確。

例如，Veo 3 更擅長「物理仿真與音視頻同步」，適合專業創作場景；而 Sora 2 則突出「敍事與多鏡頭生成」，更適合娛樂和梗圖創作。

除了這兩款代表性產品，市場上還出現了 Grok（動漫生成）、Hedra（長視頻人物）、Seedance Pro（多鏡頭場景）以及 Wan（開源模型）等差異化方案。

Moore 將這一趨勢比作 17、18 世紀繪畫從「逼真」轉向「風格化」，認為視頻模型正進入一個「多樣化與專業化」的藝術時代。

文章強調，當前最大機會在於「產品層」。儘管模型能力不斷提升，但普通用户仍需依賴複雜流程才能完成創作，例如結合 Ideogram、nano-banana、Veo 3、Hedra 與剪輯工具。

Moore 指出，這些環節完全可以被整合為一站式產品，從而降低門檻，釋放更大市場潛力。她還提到，近期中國 AI 創企 LiblibAI 完成 1.3 億美元 B 輪融資，成為迄今國內 AI 應用領域最大規模融資案例。

這一趨勢顯示，行業正從「卷模型性能」轉向「卷產品體驗」，對創業公司而言正是最佳時機。

(@APPSO)

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請通過開發者社區或公眾號留言聯繫，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、項目、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網絡新聞

RTE開發者社區 Blog

@rtedevcomm

Tags

人工智能 (486)

視頻 (26)

編碼 (24)

token (17)

聲網 (1)

實踐 (1)

Stories

輪次檢測模型 VoTurn-80M 開源，多模態融合架構；OpenAI 收購桌面助手 Sky：實時識別屏幕自然語言交互丨日報 - Stories Detail

01 有話題的技術

02有亮點的產品

03有態度的觀點

Add a new Comments