開發者朋友們大家好:
這裏是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@瓚an、@鮑勃
01 有話題的技術
1、西工大開源 VoiceSculptor:基於 LLaSA-3B 實現自然語言驅動的細粒度音色設計
西北工業大學 ASLP 實驗室聯合語圖智能等多家機構開源了語音生成模型 VoiceSculptor 。該模型通過自然語言指令和細粒度屬性 Token 實現了對音色、語速、基頻及情感的高自由度控制,解決了傳統 TTS 僅能基於參考音頻克隆而無法靈活設計音色的技術瓶頸。
- 級聯架構設計: 系統由 Voice Design 與 Voice Clone 兩部分組成。前者基於 LLaSA-3B 基座模型生成目標音色音頻,後者利用 CosyVoice2 將生成的音頻作為 Prompt 執行下游合成任務。
- 細粒度屬性 Token 與類似 CoT 推理: 在訓練中引入性別、年齡、基頻、語速等顯式屬性 Token。模型通過自然語言指令 + 屬性 Token + 目標文本聯合計算交叉熵損失,顯著增強了指令遵循能力與韻律控制精度。
- 外掛 RAG 檢索增強機制: 集成 Qwen3-Embedding-0.6B 模型與 「Milvus」 向量數據庫。推理時通過語義相似度檢索庫內指令,大幅提升了模型對域外自然語言指令的泛化性與魯棒性。
- 小參數量實現 SOTA 性能: 在 InstructTTS Eval 評測中,僅使用 9k 小時標註數據和 3B 參數量的 VoiceSculptor ,在 APS 和 RP 任務上的表現優於擁有上億小時數據、7B 參數量的 MiMo-Audio 。
- 多維度控制參數: 支持包括基頻、音量、語速、情感、副語言信息、人設、場景在內的 10 餘種聲學及語義維度,支持隨機丟棄屬性 Token 以強制模型深度理解自然語言。
已在 GitHub 與 HuggingFace 完全開源,提供預訓練模型權重、推理代碼及 HuggingFace Space 交互式 Demo。
HuggingFace:
https://huggingface.co/ASLP-lab/VoiceSculptor-VD
(@音頻語音與語言處理研究組)
2、智元機器人發佈首個 LLM 驅動的開源仿真平台 Genie Sim 3.0
在 CES 2026 首日,智元機器人正式發佈了業內首個大語言模型驅動的開源仿真平台 —— Genie Sim 3.0。
該平台旨在解決傳統仿真環境中視覺逼真度與物理真實性難以兼顧的痛點,通過引入大語言模型(LLM)驅動的場景泛化技術,將場景構建效率提升至「分鐘級」。
據悉,Genie Sim 3.0 基於英偉達 Isaac Sim 開發,融合了三維重建與視覺生成技術。
平台依託 MetaCam 手持 3D 激光掃描儀,結合高分辨率 RGB、360° LiDAR 點雲與釐米級 RTK 定位,能夠實現對真實環境的毫米級復刻。
對於仿真資產,用户僅需提供一段 60 秒的環拍視頻,即可快速生成帶有精確網格的仿真模型。
此外,首創的「自然語言驅動」場景生成與泛化功能讓開發者無需手動編寫複雜的邏輯代碼,只需通過自然語言對話即可在幾分鐘內構建、泛化出成千上萬個具備結構化信息的仿真場景。這些場景支持智能編輯,可進一步調整佈局和細節。
在數據與評估方面,智元機器人同步開源了具身智能領域規模最大的仿真數據集。該數據集涵蓋 200 餘項任務、總時長超萬小時,包含 RGB-D、雙目視覺及全身關節狀態等多維度信息。
目前,Genie Sim 3.0 已集成包括超市上貨、物流分揀、產線裝配在內的多個真實工業作業場景。該平台的核心代碼、數據集及數字資產已在 Github 和 Modelscope 全面開源。
Github:
github.com/AgibotTech/genie_sim
項目主頁:
agibot-world.com/genie-sim
( @APPSO)
3、Meta 開源 Spatial Lingo:集成 Llama 與 Unity Sentis,實現實景識物與動態語音教學
Meta 官方開源混合現實教學應用模板 Spatial Lingo 。該項目基於 Unity 6 構建,通過集成 Llama 模型、 Unity Sentis 框架及 Meta 原生 SDK 套件,演示瞭如何利用物理環境物體識別實現動態、上下文感知的語言學習交互。
- 本地與雲端雙 AI 協同:應用通過本地的 Unity Sentis 框架運行 YOLO 模型來即時識別房間裏的物體;隨後將識別結果傳給雲端的 Llama 模型,由其動態生成相關的動詞、形容詞教學內容。
- 深度適配 Unity 6 引擎:明確要求使用 Unity 6000.0.51f1 或更高版本。項目完整集成了 「Mixed Reality Utility Kit」,用於處理虛擬物體在真實房間中的物理佈局和碰撞。
- 全功能語音交互鏈路:利用 「Voice SDK」 實現了雙向交互——既能通過 TTS 讓虛擬角色教用户發音,又能通過 STT 來評估用户的口語回答是否準確。
- 原生交互支持:基於 「Interaction SDK」 實現,用户可以自由選擇使用手部追蹤或手柄來操作菜單和物體。
已在 GitHub 以 MIT 協議開源,開發者需自備 Llama API Key 並在項目配置文件中進行設置。
GitHub:
https://github.com/oculus-samples/Unity-SpatialLingo
( @GitHub)
02 有亮點的產品
1、Narwal 為其吸塵器添加人工智能,用於監控寵物和尋找珠寶
吸塵器製造商 Narwal 在消費電子展上發佈了其新款智能吸塵器,配備人工智能功能,如監控寵物、尋找貴重物品以及通知用户丟失的玩具。
其新款旗艦 Flow 2 機器人吸塵器採用圓形設計,並配備了易於拆卸的水箱以提升清潔效率。硬件方面,該設備搭載了兩個 1080p RGB 攝像頭,視角達 136 度,用於繪製環境地圖並利用人工智能模型識別不同類型的物體。
Narwal 表示,通過其技術棧,該吸塵器能夠識別數量眾多的物體。在工作流程上,設備會首先嚐試在本地識別物體,若沒有匹配項,則會將數據發送到雲端進行進一步處理。
Flow 2 預設了三個關鍵模式:寵物護理模式、嬰兒護理模式和 AI 地板標籤模式。在寵物護理模式下,用户可以定義寵物通常休息或清潔的特定區域進行針對性清潔;此外,該模式還支持監控寵物並通過雙向音頻與寵物互動。在嬰兒護理模式下,吸塵器在嬰兒牀附近會自動切換到靜音模式,並會就放置不當的玩具向用户發出通知。在 AI 地板標籤模式下,吸塵器能夠識別珠寶等貴重物品並進行避讓,同時向用户發出警報。
據 Narwal 介紹,其最新款吸塵器擁有四種清潔模式,能夠識別不同類型的污垢。該設備具備自動返回基站清洗拖布的功能,並在檢測到某個區域髒污時執行重新拖地任務。該公司強調,Flow 2 的設計允許使用更高温度的熱水進行洗滌,以實現更徹底的清潔效果。
( @TechCrunch)
2、BreakReal R1:全球首款對話式 AI 調酒機
BreakReal R1 是全球首款對話式 AI 調酒機,用户只需用自然語言表達當下的情緒與口味偏好,系統即可實時生成配方,並自動調製出一杯專屬飲品。R1 最多隻能同時處理 8 種不同的原料,包括糖漿、酒精、汽水和果汁。
( @Z Potentials)
3、雷鳥創新發布全球首款 eSIM AR 眼鏡
昨天,AR 品牌雷鳥創新(RayNeo)在 CES 2026 上發佈全球首款支持 eSIM 的雙目全綵 AR 眼鏡「雷鳥 X3 Pro Project eSIM」。
雷鳥 X3 Pro Project eSIM 在輕量化一體機身中集成 eSIM 通信模塊,使 AR 眼鏡首次具備真正意義上的脱離手機使用能力。產品無需依賴手機或 Wi-Fi,即可獨立完成通話、實時 AI 對話、實時翻譯、在線流媒體播放等功能。
產品還搭載等效 43 英寸的 3D 空間屏幕、高通驍龍 AR 1 計算平台,並內置 RayNeo AR 應用虛擬機,支持微信、抖音、B 站等主流應用,讓用户在 AR 眼鏡與智能手機之間實現無縫切換。
除全新的 eSIM 機型外,雷鳥創新也在 CES 2026 展示旗下明星產品 Air 4 系列。
該系列搭載全球首顆 AR 畫質芯片 Vision 4000,可實現 HDR10 畫質輸出,並在 AI 加持下支持將普通畫質內容實時增強為 HDR 或 3D 效果。
音頻方面,Air 4 採用由丹麥 B\&O 聲學工程師聯合調校的四揚聲器系統,進一步提升沉浸式觀影體驗。
雷鳥創新已連續兩個季度蟬聯全球 AR 智能眼鏡市場第一,產品覆蓋全球超 25 個國家和地區。本月早些時候,雷鳥創新宣佈完成新一輪超 10 億元融資,由中國移動、中國聯通旗下基金聯合投資,為技術研發與全球市場拓展提供進一步支持。
( @APPSO)
4、Arrowhead 獲 300 萬美元種子輪融資:自研語音 AI 智能體支持 20 分鐘長對話與多語種動態切換
印度語音 AI 初創公司「Arrowhead」完成 300 萬美元種子輪融資,由「Stellaris Venture Partners」領投。該公司專注於為 BFSI(銀行、金融、保險)行業開發高擬真語音 AI 智能體,通過自研模型微調實現長程、高複雜度的銷售通話,旨在替代傳統人工座席並提升轉化率。
- 長程對話性能與 45% 轉化率提升:其 AI 智能體可維持長達 20 分鐘的端到端連續銷售或服務通話,實測轉化率較人工座席提升 45%,已實現部分客户場景下的全 AI 替代。
- 複雜文檔實時解析與上下文關聯:支持在通話過程中實時檢索並準確解釋長達 20 頁的保單或金融合規文件,能夠處理保險條款、承保範圍及除外責任等高複雜度專業內容。
- 動態多語種切換能力:支持印地語、英語、泰米爾語等 7 種語言,並具備在通話中途根據客户反饋無縫切換語言的技術能力,有效解決了多語言環境下的用户流失問題。
- 垂直行業模型深度微調:公司避開通用 API 方案,通過自研模型針對貸款、保險、證券等特定金融場景進行微調,以建立技術護城河並滿足嚴苛的行業合規要求。
該語音 AI 智能體服務已投入商用。目前通過企業級接口向「Paytm」、「Aditya Birla Capital」等 50 餘家金融機構提供服務,並已在東南亞市場開啓部署。
( @Inc42 News)
03 有態度的觀點
1、黃仁勳:今年將出現「人類級別」機器人,物理 AI 時刻即將到來
據澎湃新聞報道,英偉達 CEO 黃仁勳在昨天舉行的媒體交流會上表示,具有人類級別技能的機器人有望在今年出現。
針對目前機器人技能水平較為基礎的觀點,黃仁勳指出,機器人目前僅擁有「眼睛」,未來需要具備觸覺能力。儘管實現精細運動技能非常困難,但他透露英偉達及行業其他公司正在推進相關技術研發。
在此前的 CES 2026 主題演講中,黃仁勳多次提及「物理 AI」(Physical AI),並宣佈西門子將把英偉達的 CUDA-X 庫集成到其工作流程中。
他在官方新聞稿中稱「機器人領域的 ChatGPT 時刻已經到來」,但在演講中使用了更為嚴謹的「即將到來」一詞。
在就業與經濟話題上,黃仁勳將搭載 AI 的機器人稱為「AI 移民」。
他認為,人類難以獨自維持理想的經濟規模,需要「AI 移民」來協助完成人類不願從事的工作,這將有助於解決全球勞動力短缺問題,保持低通脹並降低生活成本,進而創造更多就業機會。
關於自動駕駛業務,英偉達宣佈 2025 款梅賽德斯奔馳 CLA 將集成其完整自動駕駛技術棧。首款搭載該技術的汽車計劃於今年第一季度在美國上路,歐洲和亞洲市場將分別在第二季度和下半年跟進。
黃仁勳預測,未來十年內將有數億輛汽車具備強大的自動駕駛能力,這將是增長最快的技術領域之一。此外,他在談及技術監管時強調,創新與安全相輔相成,不應通過減緩技術發展來追求安全。
( @APPSO)
閲讀更多 Voice Agent 學習筆記:瞭解最懂 AI 語音的頭腦都在思考什麼
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請通過開發者社區或公眾號留言聯繫,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、項目、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
作者提示:個人觀點,僅供參考