Stories

Detail Return Return

輪次檢測模型 VoTurn-80M 開源,多模態融合架構;OpenAI 收購桌面助手 Sky:實時識別屏幕自然語言交互丨日報 - Stories Detail

開發者朋友們大家好:

這裏是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@Jerry fong,@鮑勃

01 有話題的技術

1、ModelScope 開發者開源「AI 眼鏡」:搭載 Qwen Omni,賦能視障人士「聽」見世界

在 ModelScope 的「AI 向善」競賽中,開發者帆哥設計了一款輕便的眼鏡,讓用户能夠實時「聽」到世界。它們可以報交通信號燈、識別產品,並提供引導。

眼鏡通過複雜的軟硬件、雲邊架構運行。

✅ Qwen Omni 構成了基礎,確保<1s 對話響應性通過超低延遲推理。

✅ 這結合了專門用於識別障礙物、路徑和交通信號的自定義 YOLO 圖像模型。

✅ 通過將光流算法與自定義導航策略相結合,該系統以每秒 20 幀的速度提供近乎實時的路徑規劃反饋。

關鍵的是,開發過程由實際反饋驅動。開發者帆哥親自佩戴眼鏡,體驗了一天的視障人士街道生活,並邀請了上海楊浦區盲人協會主席參與測試。這種親身實踐的真實用户反饋促成了多次關鍵迭代和優化,進展仍在繼續。

該項目所有代碼、硬件清單、3D 外殼模型以及 AI 眼鏡的部署教程現已在 ModelScope 上開源。

(🔗 :
https://modelscope.cn/models/archifancy/AIGlasses_for_navigation

(@ModelScope)

2、Vogent 發佈 VoTurn-80M 模型,用 80M 參數解決語音智能體「何時迴應」難題

Vogent 發佈了 VoTurn-80M,一款專為語音智能體設計的開源「輪次檢測」模型。該模型創新地結合了音頻和文本兩種模態,以解決傳統方案中「何時迴應」的難題,在實現 94.1% 準確率的同時,將延遲控制在 7ms,旨在讓 AI 對話體驗更自然流暢。

  • 多模態融合架構: VoTurn-80M 的核心突破在於其多模態設計。它不僅通過 Whisper 編碼器分析音頻信號中的語調、停頓和節奏,還結合對話上下文的文本信息進行綜合判斷。這使得模型能區分「思考時的停頓」和「真正結束的回答」,大幅提升了交互的智能性。
  • 高效的輕量化模型: 該模型基於 SmolLM2-135M,並通過模型燒蝕(ablation)技術精簡至僅 ~80M 參數。這一優化在不犧牲準確率的前提下,顯著降低了計算需求,使其能夠在消費級硬件上實現實時推理,非常適合實際應用部署。
  • 實時性能與高準確率: 在 NVIDIA T4 GPU 上, VoTurn-80M 的單次推理延遲僅為~7ms,遠低於人類感知的閾值,確保了對話的即時響應。同時,其準確率達到了 94.1%,在精度和速度之間取得了出色的平衡。
  • 精心構建的訓練數據集: 為應對真實對話的複雜性,Vogent 結合了真人錄製的自然對話數據和系統性生成的合成數據。合成數據特別關注了易導致誤判的邊緣場景,如包含「嗯……啊……」的猶豫、多子句的回答、列表式列舉等,增強了模型的魯棒性。

GitHub 倉庫:

https://github.com/vogent/vogent-turn

(@Vogent Blog)

02有亮點的產品

1、OpenAI 收購 Mac 端 AI 界面 Sky,巨頭佈局消費級 AI 再落一子

今天,OpenAI 宣佈收購了一家名為 Software Applications 的初創公司,這家公司由多位蘋果資深員工創辦,致力於打造一款面向 Mac 的 AI 驅動用户界面。彭博社分析道,這筆收購是 OpenAI 在讓 AI「更好地在電腦上完成任務」方面邁出的重要一步。

作為此次收購的一部分,OpenAI 將把 Software Applications 打造的 AI 助手 Sky 整合進 ChatGPT,包括這款產品在 macOS 上的集成能力與其產品設計理念。同時,Software Applications 的整個團隊將加入 OpenAI。交易的具體財務條款尚未披露。

Software Applications 此前曾於 2023 年 1 月獲得 650 萬美元的種子輪融資,投資方包括 OpenAI 首席執行官 Sam Altman 與 Figma CEO Dylan Field 等知名人士。OpenAI 特別強調,此次收購 Software Applications 由公司兩位其他高管主導,並經獨立交易與審計委員會批准。

今年早些時候,Software Applications 發佈了名為「Sky」的 AI 助手,能夠幫助用户在 Mac 上執行任務或回答問題,如寫作、規劃、編程等。該功能採用懸浮式界面設計,可理解用户屏幕上的內容,並直接使用應用程序來執行任務。目前 Sky 尚未面向公眾開放。

值得注意的是,Software Applications 的創始人團隊此前已經有過一次引人注目的成功套現。

Software Applications 的聯合創始人兼 CEO 為 Ari Weinstein聯合創始人兼 CTO 為 Conrad Kramer。二人在 2013 年左右共同創立了自動化應用 Workflow,並在 2017 年將其出售給蘋果。

這款應用後來演變成如今 iPhone 和 Mac 上廣受歡迎的 「快捷指令」(Shortcuts)技術 。在被蘋果收購後,他們都在蘋果工作了一段時間,隨後於 2023 年 8 月離職創辦了 Software Applications。

OpenAI 近期正積極通過併購擴展版圖。今年早些時候,公司在一輪二級市場股份交易中估值已達到 5000 億美元。此後,OpenAI 以 11 億美元收購了產品測試公司 Statsig,並完成了約 65 億美元收購由前蘋果設計總監 Jony Ive 共同創辦的 AI 硬件初創公司——這兩筆交易均為全股票交易。此外,OpenAI 還進行了多項較小規模的收購。

通過吸納 Software Applications 團隊的產品能力與 macOS 的深度集成經驗,OpenAI 或許希望進一步推動 ChatGPT 從對話式 AI 進化為真正能理解上下文、操作系統和用户意圖的個人助手。

(@智東西)

2、微軟推出 Copilot 語音模式的新虛擬角色 Mico,AI 版大眼夾助手首次亮相

彩蛋:如果您多次點擊 Mico,它就會改變形狀並最終變成 Clippy。

距離微軟經典的 Office 大眼夾助手 Clippy 首次亮相已近 30 年,儘管 Clippy 在 2001 年 Office XP 時代被「退休」,之後微軟曾嘗試以 Windows Phone 平台上的 Cortana 延續智能助手理念,但當時的技術尚未成熟。如今,微軟再次嘗試,通過 Copilot 語音模式引入新的虛擬角色——Mico。

微軟 AI 部門產品與增長副總裁 Jacob Andreou 談到:「大眼夾的出現是為了讓我們邁步向前。」據介紹,微軟已測試 Mico 數月。這一角色能在語音交互時實時呈現表情,默認啓用,用户也可選擇關閉這隻「彈跳小球」。

Mico 會根據用户説話內容實時變化表情。例如,當用户談論悲傷話題時,Mico 的表情也會立即表現出相應情緒。「所有技術都退居幕後,你只需與這個可愛的球體對話,逐漸建立情感聯繫。」Andreou 説。

首批上線地區包括美國、英國和加拿大。Mico 依託 Copilot 新記憶功能,可調用與用户相關的事實和工作內容。

微軟還在 Mico 中加入了「Learn Live」模式,能將 Mico 變身為蘇格拉底式導師,鼓勵引導式學習,而非直接給出答案。該模式利用互動白板和視覺提示,特別面向備戰考試的學生或練習新語言的用户。

微軟 AI 首席執行官 Mustafa Suleyman 曾表示,Copilot 未來將擁有固定形象、獨立空間與「成長」過程。Mico 正是微軟賦予 Copilot 身份感的重要一步。

此外,微軟近期開展了「讓人們與電腦對話」的新計劃,在電視廣告中力推 Windows 11 電腦為「可對話的電腦」。此前微軟在 Windows 10 嘗試推廣 Cortana,也最終在 Windows 11 被關閉。

相比大眼夾和 Cortana,Mico 擁有更強能力。但微軟仍面臨勸服用户接受與電腦、手機對話為自然而非尷尬的新挑戰。和前作一樣,Mico 也藏有彩蛋,比如快速點擊 Mico 會激發特殊效果——Andreou 笑言:「在某種意義上,我們都生活在大眼夾的陰影下。」

(@cnBeta、@testingcatalog\@X)

03有態度的觀點

1、A16Z:AI 視頻模型不會一家獨大,產品層才是最大機會

風險投資機構 A16Z 近日發表文章指出,AI 視頻生成領域不會出現「一家通吃」的「神級模型」,而是逐漸走向專業化與產品化階段。

A16Z 合夥人 Justine Moore 在文章中表示,早期行業競爭主要集中在 benchmark 指標,如生成時長、物理效果和逼真度,但如今不同模型已開始分工明確。

例如,Veo 3 更擅長「物理仿真與音視頻同步」,適合專業創作場景;而 Sora 2 則突出「敍事與多鏡頭生成」,更適合娛樂和梗圖創作。

除了這兩款代表性產品,市場上還出現了 Grok(動漫生成)、Hedra(長視頻人物)、Seedance Pro(多鏡頭場景)以及 Wan(開源模型)等差異化方案。

Moore 將這一趨勢比作 17、18 世紀繪畫從「逼真」轉向「風格化」,認為視頻模型正進入一個「多樣化與專業化」的藝術時代。

文章強調,當前最大機會在於「產品層」。儘管模型能力不斷提升,但普通用户仍需依賴複雜流程才能完成創作,例如結合 Ideogram、nano-banana、Veo 3、Hedra 與剪輯工具。

Moore 指出,這些環節完全可以被整合為一站式產品,從而降低門檻,釋放更大市場潛力。她還提到,近期中國 AI 創企 LiblibAI 完成 1.3 億美元 B 輪融資,成為迄今國內 AI 應用領域最大規模融資案例。

這一趨勢顯示,行業正從「卷模型性能」轉向「卷產品體驗」,對創業公司而言正是最佳時機。

(@APPSO)

閲讀更多 Voice Agent 學習筆記:瞭解最懂 AI 語音的頭腦都在思考什麼

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請通過開發者社區或公眾號留言聯繫,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、項目、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網絡新聞

user avatar u_16776161 Avatar sovitjs Avatar bizseerbishikeji Avatar feibendemaojin Avatar explinks Avatar tizuqiudexiangpica Avatar ruyadekabuqinuo Avatar bizidadejianbing Avatar ivorysql_xiaozhuli Avatar dtstack Avatar qianniandanshendetiebanshao_dxy8l Avatar chat2db Avatar
Favorites 12 users favorite the story!
Favorites

Add a new Comments

Some HTML is okay.