博客 / 詳情

返回

Wispr 曝光內部項目:不僅轉錄文本還執行任務;蘋果將推送 LLM 架構 Siri:支持屏幕感知與應用調用丨日報

開發者朋友們大家好:

這裏是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@瓚an、@鮑勃

01 有話題的技術

1、NVIDIA 發佈 Nemotron Speech ASR:緩存感知架構實現 24ms 極低延遲與 3 倍併發提升

NVIDIA 發佈開源模型 Nemotron Speech ASR,引入緩存感知流式技術替代傳統的重疊緩衝推理。該架構通過僅處理音頻增量並複用歷史計算狀態,解決了高併發環境下的延遲漂移問題,將單卡併發能力提升了 3 倍,為實時語音智能體提供了高性能的基礎設施。

  • 緩存感知流式架構:棄用滑動窗口的重疊計算模式。通過在編碼器層維護內部緩存狀態,確保每幀音頻僅被處理一次,實現了內存消耗的線性擴展,徹底消除計算冗餘。
  • 8x 下采樣 FastConformer 架構:模型規模 600M 參數,採用深度可分離卷積實現 8 倍下采樣。相比行業主流的 4 倍下采樣方案,該架構大幅減少了每秒處理的 Token 數量,顯著降低 VRAM 佔用。
  • 24ms 中值最終轉錄延遲:在實測中,該模型的 Time-To-Final(最終轉錄延遲)中值僅為 24ms,且性能不隨語音長度增加而衰減。對比之下,同類本地模型延遲約為 90ms,主流 API 方案則通常超過 200ms。
  • 運行時動態延遲配置:支持在推理階段實時切換 80ms、160ms、560ms 及 1.12s 等不同延遲模式。開發者無需重新訓練模型,即可根據業務場景在響應速度與識別準確率之間取得平衡。

  • 高併發吞吐表現:單張 H100 GPU 可同時支持 560 個併發流(320ms 塊大小),吞吐量較前代方案提升 300%。在 RTX A5000 等工作站級 GPU 上,併發能力提升可達 5 倍。

模型已在 Hugging Face 開源,支持通過 NVIDIA NeMo 部署。

Hugging Face:

https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b

( @Huggingface)

2、Boston Dynamics 聯合 Google DeepMind:將 Gemini 基礎模型集成至新一代 Atlas,開發 VLA 視覺-語言-動作模型

Boston Dynamics 與 Google DeepMind 宣佈達成戰略合作,將 Gemini Robotics 基礎模型引入新一代全電動「Atlas」機器人。該計劃旨在利用大規模多模態模型提升人形機器人的感知推理與靈巧操作能力,首批應用目標鎖定為汽車製造業的工業任務。

  • 集成 Gemini Robotics 基礎模型:基於 Google 的多模態「Gemini」大模型,為機器人提供視覺感知、邏輯推理及工具使用能力,使其能理解並執行復雜的跨模態指令。
  • 構建視覺-語言-動作(VLA)模型:雙方將共同開發針對人形機器人的 VLA 模型,致力於將非結構化的環境信息直接映射為高維度的執行動作,提升機器人在複雜工業場景下的泛化能力。
  • 全電動「Atlas」機隊部署:此次合作將完全基於 Boston Dynamics 最新的全電動版 Atlas 平台,利用其超越人類極限的關節活動範圍(ROM)驗證基礎模型在端到端控制上的表現。
  • 工業級任務對齊:研發重心處於從「運動智能」向「通用智能」的跨越,重點解決汽車生產線等高動態環境下的靈巧操作與人機協作安全性。

聯合研究計劃於 2026 年內正式啓動,初期成果將率先在現代汽車工廠進行測試,暫未披露 API 開放計劃或具體商用定價。

( @Boston Dynamics Blog)

02 有亮點的產品

1、Symbolic Software 發佈 Magicall:端到端加密視頻通話,支持 SAS 驗證與 EU 節點託管

加密諮詢公司 Symbolic Software 推出「Magicall」Alpha 版,這是一款強調隱私的瀏覽器原生視頻會議工具。該產品通過端到端加密技術提供無需客户端的即時通訊,旨在通過歐盟本地化託管和無 AI 訓練政策解決企業協作中的數據主權與隱私安全問題。

  • 端到端加密(E2EE)與 SAS 身份驗證:音視頻及聊天數據在瀏覽器端完成加密後再傳輸;引入「短驗證字符串」(Short Authentication Strings, SAS)機制,允許用户通過比對校驗碼驗證參與者身份,防範中間人攻擊。
  • Zero-Download 架構與固定 URL:採用 Web 瀏覽器原生運行,支持 Chrome、Firefox、Safari 和 Edge;用户可申領永久固定的房間鏈接,訪客端無需註冊賬號或下載任何插件。
  • 歐盟本土化託管與數據主權:服務器節點全部位於歐盟境內,由總部位於巴黎的廠商開發,完全符合 GDPR 規範;官方明確承諾不使用通話數據進行 AI 模型訓練,且不包含任何廣告追蹤插件。
  • 高標準安全背書:由曾為 Coinbase、1Password、Bitwarden、Zoom 等提供過 250 餘項安全審計的 Symbolic Software 團隊研發,底層協議基於開放標準構建,強調低延遲與高音頻清晰度。

當前處於 Alpha 測試階段,提供 Free 永久免費版(單次會議限 5 人、30 分鐘,支持無限次重啓),用户可通過郵箱註冊申領房間名。

相關鏈接:

https://magicall.online/

( @Magicall)

2、Apple Vision Pro 聯合 Spectrum 推出湖人隊沉浸式賽事直播:150 Mbps 碼率、7 處視角及 3D 懸浮 UI

Apple 與「Spectrum」宣佈將於 2026 年 1 月 9 日起在「Apple Vision Pro」上推出「Spectrum Front Row」直播服務。該服務通過 Apple Immersive 視頻技術直播洛杉磯湖人隊賽事,旨在通過高帶寬流媒體和空間交互技術提供原生虛擬現實觀賽體驗。

  • 高吞吐量視頻流與 180° 沉浸感:直播源提供最高 150 Mbps 碼率的 Apple Immersive 視頻,覆蓋 7 個特製拍攝機位,包括記錄台、籃架下方、球員通道及解説席。
  • 3D 空間實時圖形渲染:計分板、球員名單及 24 秒計時器等動態數據以 3D 元素呈現,利用 visionOS 的空間計算能力懸浮於現實環境中。
  • Ambisonic 空間音頻技術:利用球場部署的多維麥克風捕捉環境音,通過「Spatial Audio」算法還原球鞋摩擦聲、籃網入網聲及現場觀眾的方位感。
  • 硬件與系統協同:該功能僅支持搭載 M2 或 M5 芯片的 「Apple Vision Pro」,且系統版本需更新至「visionOS 26」或更高版本。
  • 分階段播控策略:直播期間,暫停、半場休息及球員入場環節將保持實時傳輸,不切換為傳統商業廣告廣告位,維持全流程場內臨場感。

2026 年 1 月 9 日首播;直播覆蓋美國南加州等湖人隊轉播區,全球其他地區(含日、新、韓等)支持通過「NBA」App 觀看部分直播或賽後 24 小時回放。

( @Apple Newsroom)

3、Apple 擬於 iOS 26.4 推送 LLM 架構 Siri:支持屏幕感知與 App Intents

Apple 計劃在 iOS 26.4 更新中正式上線基於 LLM 架構的新版 Siri。通過徹底替換運行多年的底層架構,新版 Siri 將具備類 ChatGPT/Gemini 的邏輯理解能力,並實現對系統全局任務的深度接管。

  • 底層架構重構:棄用傳統的規則/模板匹配系統,轉向以 LLM 為核心的推理引擎,旨在提升複雜指令的解析精度與對話連貫性。
  • App Intents 實現系統級操作:通過強化的智能體能力,Siri 可直接調用應用程序內的特定功能,實現全自動的「免提計算」。
  • 屏幕感知:Siri 將具備理解當前顯示內容的能力,能夠基於屏幕上的文本、圖像或上下文信息直接執行後續指令。
  • 個人語境感知:整合跨 App 的用户數據,使 Siri 能夠理解涉及個人日程、偏好及歷史交互的私有化指令。
  • 發佈週期預測:參考 iOS 18.4 與 16.4 的發佈節奏(均為 3 月下旬),iOS 26.4 預計於 2026 年 1 月底進入 Beta 測試,3 月正式推送。

( @9to5Mac\@X)

4、Amazon 發佈 Alexa.com:Alexa+ 全面轉向「智能體」架構,支持 Web 端交互與個人數據集成

Amazon 在 CES 2026 上宣佈推出 Alexa.com,將基於 LLM 的「Alexa+」服務正式從硬件端延伸至 Web 瀏覽器。此舉通過「智能體化」的 UI 重構與跨平台集成,試圖將 Alexa 從單一的語音工具轉型為覆蓋全平台的個人/家庭自動化中心。

  • 「智能體」優先的架構重塑:Alexa 移動端及 Web 端 UI 全面轉向聊天機器人界面,將原本的功能圖標入口降權,優先通過自然語言交互觸發底層服務。
  • 非原生數據集成能力:針對缺乏自有辦公套件的劣勢,Alexa+ 新增郵件、日曆及個人文檔(如 PDF、照片)的轉發與上傳接口,允許用户通過文件投喂建立家庭私有知識庫,支持檢索疫苗記錄、學校行程等非結構化信息。
  • 第三方服務深度接入:新增 Angi、Expedia、Square 及 Yelp 等 API 集成,配合已有的 Uber、OpenTable 和 Ticketmaster 接口,支持通過智能體直接完成餐廳預訂、行程規劃及家政預約。
  • 硬件生態無縫兼容:Alexa+ 已適配 97% 的現有設備(約 6 億台 Echo 系列),支持舊款硬件調用新版模型能力,通過後端雲端更新實現向後兼容。
  • 高頻交互數據驗證:Early Access 數據顯示,轉向 Alexa+ 後,用户對話頻率提升 2-3 倍,購物行為增長 3 倍,食譜與智能家居控制等高階功能的使用率分別提升 500% 和 50%。

已向 Alexa+ Early Access 計劃的活躍用户開放,需通過 Amazon 賬號登錄使用。

( @TechCrunch)

5、能幫你做家務的機器人 LG CLOiD 首次亮相 CES

據 The Verge 報道,LG 在 CES 主題演講中正式展示了其家務機器人 CLOiD 的實際運行效果,LG 將其定位為打造「零勞動家庭」的重要組成部分。

CLOiD 在舞台上以雙手揮動的方式亮相,隨後在 LG 家電事業部銷售副總裁 Brandt Varner 的指令下,示範了將一條濕毛巾放入洗衣機的完整流程。

洗衣機門自動打開後,機器人伸出左臂,將毛巾放入滾筒。整個過程耗時約 30 秒,展示了其具備基礎家務執行能力,但效率仍有提升空間。

在演講後半段,CLOiD 再次登場,為 LG HVAC 事業部高級副總裁 Steve Scarbrough 遞上水瓶,並根據其語氣判斷需求後主動提供幫助,甚至完成了拳碰動作,強調其具備一定的情感交互能力。

LG 此前已預告該機器人具備多項家務能力,包括從冰箱取牛奶、在烤箱中烤可頌、疊放衣物等。此次演示進一步展示了其在家庭場景中的潛在應用。不過,LG 仍未公佈 CLOiD 的上市時間或是否會真正面向消費者銷售。

( @APPSO)

03 有態度的觀點

1、Wispr 創始人:內部項目「Wispr Actions」不僅生成文本,還能直接執行任務

Wispr 首席執行官 Tanay Kothari 近日表示,儘管讓辦公族放棄鍵盤是一場「艱苦的戰鬥」,但 AI 的普及正成為變革的催化劑。目前 Wispr 估值約 7 億美元,月收入及用户數環比增長達 50%。

Kothari 認為:「AI 工具是人們開始使用 Flow 的『gateway drug』。他們下載它,在 ChatGPT 或 Cursor 中使用,到了第二或第三週,他們就會意識到,『為什麼我不隨處都使用它呢?』然後他們就開始在所有的 Slack 消息和電子郵件中使用它。」

數據顯示,該工具已讓深度用户的每日打字時間從 5 小時減至 3 小時,且使用五個月後,72% 的電腦活動均通過語音完成。

與傳統逐字轉錄工具不同,Flow 側重於理解語境與意圖。Kothari 強調,用户需要的是符合邏輯的書面表達:「其他模型會逐字轉錄你所説的一切,但那不是人們想要的——你説的話與你寫的字非常不同,所以輸出應該反映你實際會寫出的樣子。」

通過結合 Llama 3.1 等模型,Flow 實現了高精度輸出並降低了在辦公室發聲的「社交門檻」。在安全性上,Wispr 憑藉「零數據留存」模式成功打入嚴監管領域。

Kothari 透露,僅約 25% 至 30% 的用户選擇共享數據用於訓練,這幫助公司:「獲得了一些規模最大、最嚴格的金融機構的青睞……我們即將在歐洲最大的銀行之一進行部署。身處歐洲又是銀行——我還沒遇到過比這要求更高的地方。」

展望未來,Kothari 致力於打造現實版 J.A.R.V.I.S。,將人類從屏幕束縛中解放。他感性地表示:「我不希望我的孩子在成長過程中整天盯着手機看。對我來説,那太……令人沮喪了。我希望他們昂首挺胸地走路,而不是被屏幕所束縛。實現這一目標的唯一方法是開發一個人們真正信任的語音界面。」

其內部稱為「Wispr Actions」的項目被列為今年的重點關注內容,語音交互有望從單純的文本生成,跨越至代為執行復雜任務的新階段。

( @Computerworld)

閲讀更多 Voice Agent 學習筆記:瞭解最懂 AI 語音的頭腦都在思考什麼

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請通過開發者社區或公眾號留言聯繫,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、項目、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

作者提示:個人觀點,僅供參考

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.