Stories

Detail Return Return

英偉達領投,語音AI初創Uniphore估值25億美元;ElevenLabs創始人:語音的意義不在準確,而在打動丨日報 - Stories Detail

開發者朋友們大家好:

這裏是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@Jerry fong,@鮑勃

01有話題的技術

1、Adobe MotionStream:實時生成,解鎖交互式動效控制

Adobe 研究團隊發佈了 MotionStream,實現可交互動作控制的實時視頻生成。模型在單張 NVIDIA H100 GPU 上實時運行(29 FPS,0.4 秒延遲)。

論文鏈接:

https://huggingface.co/papers/2511.01266

( @_akhaliq@X)

2、美團 LongCat 發佈 UNO-Bench 基準

多模態人工智能正從單一感知能力邁向視覺、音頻與文本的統一融合,即全模態大模型(Omni-models)時代。然而,相應的評測體系卻相對滯後。現有的評測工具不僅稀缺、各自為戰,且幾乎完全以英文為中心,缺乏對中文場景的有效支持。此外,一些現存的數據集在設計上存在侷限性,例如部分問題的解答路徑並非嚴格依賴於多模態信息的融合,這為科學評估模型真實的跨模態能力帶來了一定的複雜性。

針對這些痛點,美團 LongCat 團隊提出了一套高質量、多樣化的一站式全模態大模型評測基準——UNO-Bench。該基準通過一個統一的框架,不僅能同時精準衡量模型的單模態與全模態理解能力,更首次驗證了全模態大模型的「組合定律」——該定律在能力較弱的模型上呈現為短板效應,而在能力較強的模型上則涌現出協同增益,為行業提供了一種全新的、跨越模型規模的分析範式。

這一發現的背後,是其系統性的數據構建流程:通過完全人工標註確保高質量與豐富度,有效防止數據污染。此外,該團隊還引入了創新的「多步開放式問題」,旨在突破傳統選擇題的侷限,更具區分度地刻畫模型在複雜鏈路上的推理能力。

相關鏈接:

https://meituan-longcat.github.io/UNO-Bench

(@ LongCat)

02有亮點的產品

1、硅谷 AI 語音公司 Uniphore 獲 2.6 億美元 F 輪融資,英偉達領投,估值 25 億美元

硅谷 AI 語音公司 Uniphore 近日宣佈完成 2.6 億美元 F 輪融資,英偉達領投,估值 25 億美元。

Uniphore 是一家專注於人工智能和自動化會話技術的全球獨角獸企業,其創新產品正在推動客户服務、營銷、運營等領域的商業變革,持續滿足大型企業在數據主權、安全、合規與效率方面的嚴苛要求。

Uniphore 旗下主要產品涵蓋:

  • 會話分析(Conversation Insights Agent):企業級對話智能,聚合自動化調優與高性能推理,助力業務洞察與決策。
  • 智能自助客服(Self-Service Agent):以 AI 虛擬助手為核心,通過語音與數字渠道提供全天候人性化服務,快速響應客户需求,並以企業知識庫為基礎保證準確性。
  • 實時代理助手(Real-time Guidance Agent):為客户服務座席提供 AI 驅動的實時指導和自動事務處理,顯著提升工作效率與一致性。
  • 企業通信錄製(Communication Recording Agent):跨渠道安全記錄互動內容,支持質量監控和合規管理。
  • 市場營銷 AI CDP 與代理(Marketing Agent):專為現代市場營銷設計,涵蓋產品知識助理、語義搜索、受眾細分等,快速激活企業第一方數據並確保 GDPR 等法規合規。

Uniphore 立足於商業 AI 與客户服務自動化行業,服務對象包括全球銀行、電信、醫療、零售、BPO 等企業。公司率先提出零數據 AI 雲和多層 AI 架構,打通可組合數據層、知識層、模型層與代理層,實現企業級 AI 真實應用。Business AI Cloud 平台強調數據主權、模塊化和高安全性,支持多模態數據處理與嚴格的合規性控制,尤其在歐洲、東南亞、中東、美國等區域市場加速擴張。

解決行業痛點

  • 客服與運營自動化降本增效:將傳統呼叫中心人工服務升級為 AI 自助、自動化質量監控、實時指導、後台流程自動化,大幅度提升業務效率。
  • 數據主權與合規:通過主權化 AI 雲平台,保證客户數據不流失,滿足歐盟《人工智能法案》和 GDPR 等全球合規要求。
  • 多語言智能服務:覆蓋全球多語言及地方化需求,尤其支持印度語言和方言,為新興市場提供普適化語音技術。
  • AI 模型個性化與行業定製:為企業帶來可定製小型語言模型,快速適配金融、零售等行業場景。

(@硅谷 VC 圈)

2、AirCaps 推出 AR 眼鏡:提供實時字幕、翻譯和主動 AI 洞察

AirCaps 推出革命性軟件,將 AI 智能體 輔助功能引入真實世界的面對面對話。通過輕量化 AR 眼鏡,該產品提供實時字幕、翻譯和主動 AI 洞察,旨在解決虛擬會議 AI 盛行但線下對話缺乏技術輔助的痛點。它已為聽障人士、多語言溝通者和會議密集型專業人士提供服務,並展現出驚人的用户參與度與商業增長,有望成為面對面溝通的捕獲與智能層

  • 將 AI 助理引入真實對話: AirCaps 致力於將實時字幕、翻譯和主動 AI 洞察直接呈現在用户的 AR 眼鏡視野中,從而為線下會議和麪對面交流提供智能輔助。
  • 解決線下對話痛點: 傳統技術(手機、耳機、筆記本)在面對面交流中存在社交障礙和技術限制(噪音、重疊語音),導致高達 50% 的對話內容難以理解和記憶,而 AirCaps 通過 AR 眼鏡提供不中斷眼神交流、無聲的解決方案。
  • 多目標用户羣體: 廣泛服務於聽障人士(提供噪音環境下的實時字幕)、多語言溝通者(實時翻譯),以及醫療工作者、高管、銷售人員等需要高風險對話中實時 AI 智能體 輔助的專業人士。
  • 團隊背景與時機優勢: 創始人 Madhav Lavakare (CEO) 和 Nirbhay (CTO) 擁有 11 年智能眼鏡開發經驗和音頻 AI 專業知識。

(@AirCaps 團隊)

3、GPT-5 Pro 新增「實時上下文更新」機制:賦能動態長查詢

GPT-5 Pro 近期引入了「實時上下文更新機制」(Real-time Context Injection),這一革命性功能允許用户在進行深度研究、報告撰寫或技術分析等長時間、複雜查詢時,能夠隨時插入新的信息或調整方向,而無需重啓整個對話。此舉顯著提升了 LLM 智能體處理複雜任務的靈活性和效率,使 GPT-5 Pro 能夠記住並修訂之前的推理路徑,為用户提供更連貫、更動態的 AI 輔助體驗。

相關鏈接:

https://x.com/imxiaohu/status/1986246690555457619

( @imxiaohu)

03有態度的觀點

1、ElevenLabs 創始人:語音的意義不在準確,而在打動

ElevenLabs 首席執行官兼聯合創始人 Mati Staniszewski j Jennifer Li 一起探討了團隊如何以閃電般的速度交付研究級人工智能產品—從文本轉語音、完全授權的 AI 音樂到實時語音代理,以及語音為何是人機交互的下一代界面。他還分享了團隊的小型自主模式、全球招聘策略,以及語音市場如何在發展成為企業級平台的同時,為創作者支付超過 1000 萬美元的報酬。

Mati 在節目的後半段提出一個更宏觀的觀點:「Voice isn't a feature-it's the experience itself。」(語音不是一個功能,而是一種體驗。)他認為未來的 AI 公司如果還把語音當作「插件」,就會錯過整個體驗革命。語音不再只是輸出層,而是交互邏輯的核心。語音是情感的界面,也是信任的入口。

他舉例説,新聞類 App 如果由 AI 語音朗讀時,語調輕微的變化就能影響用户對事件的情緒判斷。同樣,在教育場景裏,語音的節奏和語氣甚至能影響學生的注意力持續時間。Mati 説:「設計語音體驗,其實是在設計情緒曲線。」

ElevenLabs 的產品哲學是 「less control, more presence」(減少操作感,增強沉浸感)。他希望用户感受到的不是「使用一個 AI」,而是「在與一個有温度的聲音對話」。團隊因此專門設立「人文感知」小組,成員包括語言學家、心理學家和編劇。他們的任務是—讓機器學會「停頓」和「呼吸」。

Mati 強調:「語音的意義不在準確,而在打動。」 他引用了一段公司內部文檔: 「People don't remember words.They remember how you made them feel。」(人不會記住你説了什麼,只會記住你讓他們的感受。)

(@晚點再聽 LaterCast)


閲讀更多 Voice Agent 學習筆記:瞭解最懂 AI 語音的頭腦都在思考什麼

素材來源官方媒體/網絡新聞

user avatar ting_61d6d9790dee8 Avatar definecloud Avatar junyidedalianmao Avatar old_it Avatar liudamao Avatar
Favorites 5 users favorite the story!
Favorites

Add a new Comments

Some HTML is okay.