博客 / 詳情

返回

OpenAI 首款 AI 硬件是一支筆,並將研發全新音頻模型架構;Pickle 預售四攝 AR 眼鏡,可行性遭質疑丨日報

開發者朋友們大家好:

這裏是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@瓚an、@鮑勃

01有話題的技術

1、DeepSeek 開年炸場,梁文鋒又發論文,提出 mHC 新方案

北京時間 1 月 1 日,DeepSeek 公佈了一篇新論文,提出名為 mHC (流形約束超連接)的新架構。

據介紹,該研究旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。

團隊指出,在過去十年中,殘差連接(Residual Connection)一直是深度學習架構的基石。

而近期出現的 「超連接(Hyper-Connections, HC)」 技術通過擴大殘差流寬度和多樣化連接模式,雖然帶來了顯著的性能提升,但也引入了嚴重的副作用——它破壞了對模型訓練至關重要的 「恆等映射屬性」。

這不僅導致訓練過程極不穩定,限制了模型的擴展能力,還帶來了額外的顯存訪問開銷。

而實驗數據顯示,進行重構後的 mHC 在大規模訓練場景下效果顯著,不僅帶來了實質性的性能提升,更展現出優越的可擴展性。

DeepSeek 團隊認為,mHC 作為一種靈活且實用的架構擴展,將加深行業對拓撲架構設計的理解,併為基礎模型的未來演進指明瞭新方向。

值得關注的是,該篇論文第一作者分別為 Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao。同時,DeepSeek 創始人及 CEO 梁文鋒也在作者名單中。

(@APPSO、@智東西)

2、Google 「NotebookLM」測試原生「講座」模式:支持 30 分鐘單人敍事與多語言切換

Google 正在測試 「NotebookLM」 的全新音頻生成模式「Lecture」,將原有的播客式雙人對話轉變為單人結構化敍事。該更新旨在將上傳的文檔轉化為長達 30 分鐘的深度講座,並新增了語言選擇器與特定口音選項。

  • 交互架構從「對話」轉向「單人敍事」:不同於現有的雙人 AI 主持人播客風格,「Lecture」模式由單一 AI 主持人進行系統化講解,側重於跨源信息的邏輯鏈接與詳細解釋。
  • 支持 30 分鐘長格式音頻生成:在選擇「Long」長度選項時,模型可生成約 30 分鐘的連續音頻會話,顯著提升了針對長文檔、複雜研究論文或會議記錄的覆蓋深度。
  • 新增原生語言選擇器:用户可在生成前指定音頻的輸出語言,不再受限於源文檔語言,進一步增強了多語言環境下的研究複用性。
  • 語音庫擴展與口音定製:系統計劃引入更多旁白選項,包括已確定的英式英語口音,預計將提升音頻的聽感多樣性與專業化場景匹配度。
  • 功能矩陣整合:該模式將作為「Audio Overview」下的並列選項,與現有的「Deep Dive」(深度解析)、「Brief」(簡報)、「Critique」(評論)及「Debate」(辯論)共同構成多維度的內容轉化工具集。

當前處於內部測試階段,尚未對公眾開放;英式英語旁白及部分新特性預計在 2026 年內逐步上線。

(@Business Standard)

3、元象開源 XVERSE-Ent 泛娛樂大模型:基於 MoE 熱啓動技術,支持單卡部署與 8K 上下文

「元象」正式開源專注於泛娛樂領域的「XVERSE-Ent」中英雙語模型。該模型通過 MoE 熱啓動與多階段訓練策略,在保持通用能力 98% 以上保留率的同時,強化了角色一致性與長劇情邏輯,旨在解決社交互動與遊戲敍事中的「齣戲」與「遺忘」問題。

  • MoE 熱啓動與 FFN 細粒度拆分:模型通過將原有 Dense 模型的 FFN 部分進行細粒度拆分(而非簡單的粗粒度複製)轉化為多專家子網絡,複用 Attention 部分,實現從 Dense 到 MoE 架構的高效遷移。
  • 雙版本參數配置

    • 中文版 (A4.2B):激活參數 4.2B,總參數量 25B,基於通用底座 XVERSE-MoE-A4.2B 增強。
    • 英文版 (A5.7B):激活參數 5.7B,總參數量 36B,針對英文創意寫作與全球化語境優化。
  • 三階段訓練策略 (S0-S2):採用 S0(能力重建)、S1(語言傾斜)、S2(領域增強)的遞進式訓練,在 S2 階段引入通用與領域數據混合訓練,確保專業能力不以犧牲通用邏輯為代價。
  • 長數據與推理性能:支持 8k context window,經過近萬億 token 數據訓練,支持雲端單卡部署,優化了高併發場景下的推理成本與處理效率。

模型已在 GitHub 及 ModelScope 開源,提供 XVERSE-Ent-A4.2B 和 XVERSE-Ent-A5.7B 兩個文本模態模型,支持免費下載與商用授權申請。

ModelScope:

https\://modelscope.cn/models/xverse/XVERSE-Ent-A4.2B

https\://modelscope.cn/models/xverse/XVERSE-Ent-A5.7B

Github:

https\://github.com/xverse-ai/XVERSE-Ent

(@魔搭 ModelScope 社區)

02有亮點的產品

1、OpenAI 首款 AI 硬件曝光:竟是一支筆,並將配套推出全新音頻模型架構

據博主智慧皮卡丘從供應鏈渠道獲知的消息,OpenAI 與前蘋果首席設計官 Jony Ive 合作的硬件項目內部代號「Gumdrop」(軟糖)。

目前供應商評估階段同步推進三個項目,其中一個明確指向筆形態,一個則是便攜音頻設備。

更詳細的爆料信息勾勒出這樣一個產品畫像:

  • 這是一款筆形設備,深度整合 AI 能力,旨在成為繼 iPhone 和 MacBook 之後的「第三核心設備」。
  • 它身形小巧,輕量便攜,尺寸與 iPod Shuffle 相仿,可輕鬆放入口袋或掛在胸前。
  • 它集成了麥克風和攝像頭,以感知和理解用户所處的環境。
  • 其核心功能之一是,能夠將手寫筆記直接轉化為文本,並即時上傳至 ChatGPT。
  • OpenAI 的首款消費級硬件設備預計將在 2026 至 2027 年間發佈。

而據 The Information 報道,OpenAI 不只是想推出單款產品,而是通過一系列產品進行生態閉環。知情人士透露,OpenAI 還考慮過智能眼鏡、無屏智能音箱在內的想法。

報道還指出,為了這款能發聲、能交流的 AI 硬件,OpenAI 目前正在改進自家的 AI 音頻模型。

OpenAI 正在開發一種全新的音頻模型架構,計劃於 2026 年第一季度推出,旨在支持一款能像夥伴一樣為用户提供建議、幫助達成目標的語音設備。

過去兩個月,OpenAI 整合了多個工程、產品和研究團隊,因為研究人員認為當前的音頻模型在準確性和速度上均落後於文本模型。

新的音頻模型架構將帶來更自然、更具情感的聲音,提供更準確、深入的回答,並實現與用户同時説話、更好地處理打斷——這對於一款能主動幫助用户的夥伴式 AI 至關重要。

這項努力由今年夏天從 Character.AI 聘請的語音 AI 研究員 Kundan Kumar 領導,Ben Newhouse(曾幫助重建 OpenAI 音頻 AI 基礎設施)和 Jackie Shannon(多模態 ChatGPT 產品經理)共同參與。

(@APPSO、@三次方 AIRX)

2、全球首款視覺 AI 網球機器人 Tenniix 亮相 CES 2026:支持語音交互與自適應訓練,699 美元起

1 月 3 日消息,全球首款基於視覺的 AI 網球機器人 Tenniix 宣佈將於 CES 2026 正式亮相,展示其智能追蹤、自適應學習及擬人化對打能力。**

據介紹,Tenniix 是一款融合人工智能、語音控制與先進機器人技術的網球訓練設備,可作為響應靈敏的智能訓練夥伴。

其採用雙重視覺 AI 系統,可實時追蹤球員位置與網球軌跡,自主移動至最佳擊球點,從而模擬更接近真實比賽的對拉場景。球員可通過自然語音指揮設備在訓練過程中直接調整發球方式、模式或難度。

Tenniix 還能夠基於大量擊球數據進行持續學習,對球員技術水平進行評估,並據此提供逐步進階、貼近實戰的個性化訓練方案;其目標是在不同水平階段,為球員提供與自身能力相匹配的訓練體驗。

在功能設計上,Tenniix 支持超過 1000 種專業訓練,並可根據球員水平動態匹配。設備配備可移動底座與混合追蹤系統,支持全場範圍內的真實訓練。Tenniix 通過實時數據反饋,為球員提供可參考的表現指標,同時採用模塊化設計,使用户能夠從入門階段逐步升級至更高階訓練,循序漸進地提升戰術能力。

在核心技術方面,Tenniix 採用雙重定位機制,將球員視覺追蹤與球體追蹤相結合,實現釐米級精度的數據捕捉。該系統可記錄每一次落點與移動軌跡,從而實現更具響應性的互動,模擬真實比賽環境下的對抗節奏。

在銷售方面,Tenniix AI 網球機器人已通過官方渠道發售,基礎版起售價為 699 美元(現匯率約合 4894 元人民幣),Pro 版為 999 美元(現匯率約合 6994 元人民幣),Ultra 版為 1599 美元(現匯率約合 11194 元人民幣)。該產品面向全球市場銷售。

(@IT 之家、@極客公園)

3、Hyper AI 發佈 Audio Glasses:支持端側錄音轉寫與 AI 摘要,擴展 Capture 多模態版本

Tracup 旗下品牌「Hyper AI」推出 Audio Glasses 智能音頻眼鏡,採用「錄音優先」的端側 AI 策略。該設備通過集成高保真麥克風與端側算法,實現會議、通話及日常對話的自動化轉寫、翻譯與智能摘要生成,旨在替代傳統的手動筆記流程。

  • 端側自動化交互方案: 硬件採用「展開即開機」邏輯,通過長按鏡腿手勢觸發錄音。設備定位為獨立運行的端側錄音協處理器,無需依賴手機實時操作即可完成音頻捕獲。
  • 多模態數據同步: 除基礎音頻版外,同步公開的 Capture 版本支持照片與視頻拍攝,並能將音頻內容與視覺背景進行時間軸對齊,實現多模態記錄的同步索引。
  • AI 轉寫與摘要流水線: 支持實時轉寫與後期處理兩種模式。通過配套 App,利用 LLM 對捕獲的原始音頻進行多語言翻譯及結構化摘要提取,並支持全文本搜索。
  • 聲學降噪與隱私設計: 硬件集成了高靈敏度麥克風陣列與 AI 降噪算法以提升噪聲環境下的採樣準確率;設有物理錄音指示燈,確保錄音動作對周邊透明。

目前已在 Kickstarter 開啓眾籌。全系列產品(包括 Audio、Capture 及 Sports 款)計劃在 CES 2026 展出。

(@USA TODAY)

4、Pickle Inc. 開啓「Pickle 1」智能眼鏡預訂:宣稱集成四攝陣列與主動式 AI 智能體,硬件可行性遭質疑

Pickle Inc. 宣佈推出 AI 驅動的 AR 智能眼鏡「Pickle 1」,旨在通過集成傳感器與人工智能實現環境感知與行為預測。由於其宣稱的硬件規格與極簡形態存在物理特性上的顯著矛盾,該產品目前正面臨行業專家的真實性質疑。

  • 主動式 AI 智能體集成:利用內置攝像頭、麥克風及傳感器陣列採集數據,宣稱具備「記憶」與「預測」能力,可根據用户生活習慣實時推送信息疊加與交互建議。
  • 高集成度硬件規格爭議:官方聲稱在集成 4 顆攝像頭、計算單元及電池的情況下,整機重量低於 Xreal 等行業領先品牌的同類無電池型號(Xreal One),硬件可行性遭技術圈質疑。
  • AR 顯示交互:預熱視頻展示了類似「鋼鐵俠」Jarvis 的高精度、動態增強現實界面,宣稱其顯示技術領先於目前 Meta 和 Xreal 的量產方案。

已開啓預訂(押金 200 美元),預計 2026 年 Q2 發貨。

(@Mashable SEA)

03有態度的觀點

1、黃仁勳對談聯想董事長,將聯合發佈「革命性服務器」

1 月 3 日,聯想集團公佈了一段該公司董事長楊元慶與英偉達首席執行官黃仁勳對談的視頻。兩位全球科技巨頭掌舵人對 AI 未來演進趨勢做出了預判,並首次披露了兩家企業的合作規模。

黃仁勳與楊元慶認為下一階段人工智能發展將會展現出兩大明顯趨勢:其一是企業級 AI 將成為核心戰場,混合式 AI 是關鍵突破點;其二是 AI 將全面滲透至實體經濟各領域,帶來巨大的市場機遇。

黃仁勳認為,人工智能正在從「生成式 AI」向「代理式 AI」演進,實現了推理能力和解決問題能力的雙重突破,這為 AI 落地應用帶來了更多可能性。下一階段的核心趨勢將聚焦企業級市場,具體表現為公有云模型與企業定製化開源模型的深度融合。

值得一提的是,這與聯想集團正在推進的混合式 AI 戰略一致。

黃仁勳對聯想集團的戰略方向充分認可,他認為混合式 AI 並非簡單的技術疊加,而是需要強大的企業級服務器作為硬件支撐,而這正是聯想的優勢所在。

黃仁勳預判,混合式企業智能將融合應用到全球產業的各行各業中——高性能計算機、人工智能雲、AI 工廠、工業製造、物流機器人等實體產業場景,聯想與英偉達將在攜手覆蓋上述所有場景。

二人在談話中披露,英偉達正在與聯想集團聯合打造基於 RTX Pro 的聯想企業級 AI 系統,英偉達將為這一項目提供這家公司技術最為先進的芯片。

黃仁勳稱「這是一款革命性的服務器,已經迫不及待要推出這一產品並向企業級市場規模化推廣。」

(@APPSO)

閲讀更多 Voice Agent 學習筆記:瞭解最懂 AI 語音的頭腦都在思考什麼

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請通過開發者社區或公眾號留言聯繫,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、項目、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

作者提示:個人觀點,僅供參考

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.