2025 年 11 月 8 日,百度官方博客發佈消息,ERNIE 5.0 Preview 在 LMArena 文本排行榜中拿到了全球第二的成績。這個成績排在 Gemini 2.5 Pro 之後,和 GPT-5-High 並列,超過了 DeepSeek-R1 和 Qwen3-Max。
LMArena 是個什麼榜單?它不是實驗室裏跑出來的基準測試,而是真實用户投票選出來的。用户會同時和兩個匿名模型對話,然後選擇哪個回答更好。這種方式更接近真實使用場景,所以在業內認可度挺高的。
看了下詳細數據,ERNIE 5.0 Preview 在三個維度上表現不錯。創意寫作拿到了全球第一,這個挺意外的,畢竟創意這種東西很主觀。複雜長問題理解和指令遵循也都排在前列。
創意寫作這塊説的是生成文章、營銷文案、劇本這些內容。複雜長問題理解,就是處理那種多層邏輯、長文本的任務,比如學術問答、報告分析。指令遵循説的是能不能精準理解用户意圖,像智能助理、代碼生成這些場景會用到。
百度從 2021 年 12 月發佈 ERNIE 3.0 Titan 開始,到現在已經迭代了好幾代。2023 年 3 月,文心一言作為中國首個類 ChatGPT 產品上線,當時確實搶到了先發優勢。但後來阿里、字節、騰訊這些大廠,還有一堆創業公司都涌進來,市場競爭變得很激烈。
現在的市場格局是這樣的:OpenAI 的 GPT 系列在全球範圍內還是標杆,Anthropic 的 Claude 在某些任務上表現也很出色,DeepSeek 因為開源和性價比獲得了不少關注。國內的話,除了百度,阿里的通義千問、字節的豆包、智譜的 GLM 都在爭奪市場份額。ERNIE 5.0 Preview 這次的排名,至少證明了百度在技術上沒有掉隊。
多模態能力是什麼
多模態 AI 説白了就是能同時處理文本、圖像、音頻、視頻這些不同類型信息的模型。以前的 AI 模型通常只能處理一種類型的數據,文本模型就只能理解文字,圖像模型就只能看懂圖片,各幹各的。多模態 AI 把這些能力整合在一起,可以同時理解和處理不同類型的信息。
比如你給它一張室內照片,加上一段文字描述"想把這個房間改造成北歐風格",多模態 AI 不僅能看懂照片裏的傢俱佈局,還能理解你的文字需求,然後給出具體的設計建議,甚至生成改造後的效果圖。這就是跨模態轉換的能力。
ERNIE 5.0 在多模態方面做了幾個升級。原生音頻分析這個挺有意思,據説是全球首創。之前大部分模型處理音頻都是先轉成文字再分析,ERNIE 5.0 可以直接理解音頻內容,包括語音的情感、説話人特徵這些信息。想想看,這意味着它能聽出來説話人是高興還是生氣,是男是女,甚至可能識別出是不是 AI 合成的聲音。實時轉錄、語音搜索、深度偽造檢測這些場景都能用上。
圖像理解和生成這塊,ERNIE 5.0 可以分析圖片內容,也可以根據描述生成圖像。文檔智能處理支持同時處理多個 PDF、Word、PPT、Excel 文件,可以快速提取關鍵信息、生成摘要。視頻內容理解還在繼續完善,不過基本的視頻分析功能已經可以用了。
實際應用場景挺多的。教育場景下,學生拍張數學題的照片,模型可以識別題目內容,然後給出分步驟的解答。辦公場景下,一次性上傳多個文檔,模型可以提取共同點、生成綜合報告。創意場景下,上傳房間照片,描述想要的風格,模型會給出設計建議和效果圖。安全場景下,可以識別音頻來源,判斷是不是 AI 合成的聲音。
性能和成本
ERNIE 4.5 的定價是輸入 0.55 美元/百萬 tokens,輸出 2.20 美元/百萬 tokens。ERNIE X1 更便宜,輸入 0.28 美元/百萬 tokens,輸出 1.10 美元/百萬 tokens。相比之下,GPT-4.5 的價格大概是 ERNIE 4.5 的 100 倍。DeepSeek-R1 的價格也比 ERNIE X1 貴一倍左右。
看看基準測試的數據。ERNIE 4.5 在多模態性能上平均得分 77.77,GPT-4o 是 73.92,領先了將近 4 分。在數學推理和文檔問答這兩個任務上,ERNIE 4.5 領先比較明顯。
文本推理和問題解決能力上,ERNIE 4.5 平均得分 79.6,DeepSeek V3-Chat 是 79.14,差距很小,基本可以説是同一水平。在通用知識、數學、編程這些測試中,ERNIE 4.5 表現都不錯。
這個價格策略對行業的影響還挺大的。AI 成本下降會讓更多中小企業用得起大模型,不再是隻有大公司才能玩得起的東西。企業可以更放心地把 AI 集成到產品裏,不用太擔心成本問題。這也會推動全球 AI 市場的競爭,OpenAI、Anthropic 這些公司可能也得考慮降價。
ERNIE X1 的深度推理 ERNIE X1 是百度推出的深度推理模型。這是個什麼概念?傳統的 AI 模型通常是一次性給出答案,問什麼答什麼。深度推理模型不一樣,它會在內部進行多步思考,有點像人類解決複雜問題的時候,先分析、再推理、最後得出結論,而不是直接蹦出一個答案。
X1 的核心特性包括高級上下文理解、自主工具調用、複雜任務的分步推理。高級上下文理解説的是能夠理解更長的對話歷史和更復雜的語境。自主工具調用是指模型可以自己決定什麼時候需要調用搜索引擎、計算器、圖像分析這些外部工具。分步推理就是把複雜任務拆解成多個小步驟,逐步完成。
和 DeepSeek-R1 比起來,X1 的性能相當,但價格只有一半。DeepSeek-R1 的優勢在於開源,開發者可以看到模型的內部結構,也可以自己部署。X1 目前還是閉源的,只能通過 API 調用。適用場景方面,如果你需要處理複雜的推理任務,比如科學研究、法律分析、複雜的代碼生成,X1 是個不錯的選擇。如果你更看重成本控制,X1 的價格優勢會比較明顯。
產品和生態 百度圍繞 ERNIE 搭建了一套完整的產品矩陣。消費端有文心一言(yiyan.baidu.com),這是個聊天機器人,普通用户可以直接使用。企業端有千帆大模型平台,提供模型訓練、部署、管理的完整解決方案。開發者可以通過 API 接口調用 ERNIE 模型,集成到自己的產品裏。
百度把 ERNIE 深度整合到了自己的生態裏。百度文庫的 AI 功能用户量增長很快,截至 2024 年底付費用户達到 4000 萬,比 2023 年底增長了 60%。文庫的 AI 功能可以根據財務文件自動生成演示文稿,還能做文檔摘要、智能問答這些事情。
百度搜索也在嘗試 AI 原生的搜索體驗,不再只是返回一堆鏈接,而是直接給出答案和總結。雲服務這塊,百度智能雲提供企業級的 AI 解決方案,包括模型訓練、推理加速、數據處理這些服務。自動駕駛的 Apollo 平台也用到了 ERNIE 的能力,比如理解路況、識別障礙物。
商業化方面,百度沒有公佈太詳細的數據,但從文庫付費用户增長 60% 這個數字來看,AI 功能確實在推動業務增長。企業客户案例包括金融、醫療、教育、製造這些行業,不過具體的客户名單和案例細節百度沒有對外披露太多。
挑戰和侷限 ERNIE 5.0 目前還面臨一些挑戰。首先是國際化受限,現在只有中國用户可以使用,這限制了它的全球影響力。OpenAI、Anthropic 的產品是全球化的,開發者和用户遍佈世界各地。百度如果想在全球市場競爭,這個問題得解決。
技術細節透明度不足也是個問題。百度沒有公佈 ERNIE 5.0 的模型參數量、訓練數據規模、具體的技術架構這些信息。相比之下,DeepSeek 是完全開源的,開發者可以看到所有細節。透明度不足會影響開發者和研究者的信任度。
開源策略的缺失也讓 ERNIE 在社區影響力上打了折扣。開源模型可以吸引大量開發者參與改進,形成社區生態。Meta 的 Llama 系列、DeepSeek 的模型都是開源的,社區活躍度很高。ERNIE 目前還是閉源的,這在一定程度上限制了它的發展空間。
和競爭對手比起來,OpenAI 的 GPT 系列在全球範圍內還是標杆,產品成熟度、生態完整性都更強。Anthropic 的 Claude 在某些任務上表現也很出色,而且更注重 AI 安全。DeepSeek 因為開源和性價比獲得了不少關注,特別是在開發者社區。ERNIE 5.0 要在這個市場裏佔據一席之地,還需要在產品體驗、生態建設、國際化這些方面繼續努力。
對 AI 產業的影響
ERNIE 5.0 的發佈會推動 AI 成本下降,這對整個行業來説是好事。更低的價格意味着更多企業和開發者可以用得起大模型,AI 應用會加速普及。OpenAI、Anthropic 這些公司可能也會感受到價格壓力,考慮調整自己的定價策略。
多模態 AI 的應用會變得更普遍。之前多模態模型主要是大公司在用,現在成本降下來了,中小企業也可以嘗試。教育、醫療、設計、客服這些領域會出現更多多模態 AI 的應用案例。
對中國 AI 產業來説,ERNIE 5.0 證明了國內企業在大模型技術上已經達到了國際先進水平。這有助於建立自主可控的 AI 生態,減少對國外技術的依賴。同時也會推動產業數字化轉型,讓更多傳統行業用上 AI 技術。
不過我們也得客觀看待,ERNIE 5.0 目前還是預覽版,正式版什麼時候發佈、功能會不會有變化,這些還不確定。百度説會在近期正式發佈,具體時間沒有透露。技術細節、開源計劃這些信息也還沒有公佈,後續進展值得繼續關注。
對於開發者和企業來説,選擇大模型的時候可以考慮這麼幾個因素:任務類型(是需要文本生成、多模態理解還是深度推理)、成本預算(API 調用費用、部署成本)、數據隱私(是否可以接受數據上傳到雲端)、生態支持(文檔是否完善、社區是否活躍)。ERNIE 5.0 在成本和多模態能力上有優勢,但在國際化和開源方面還有提升空間。
多模態 AI 的發展趨勢是會繼續融合更多類型的數據,不僅是文本、圖像、音頻、視頻,還可能包括傳感器數據、生物信號這些。跨模態的理解和生成能力會越來越強,模型可以更自然地在不同模態之間轉換。成本會繼續下降,讓更多人用得起。
中國 AI 產業的全球化之路還很長。技術上已經達到了國際先進水平,但在產品體驗、生態建設、品牌影響力這些方面還需要時間積累。國際化不僅是把產品推向海外市場,還包括參與國際標準制定、吸引全球開發者參與、建立全球化的服務體系。ERNIE 5.0 是個不錯的起點,但要真正在全球市場站穩腳跟,還需要更多努力。 ———————————————— 版權聲明:本文為CSDN博主「oil歐喲」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。 原文鏈接:https://blog.csdn.net/weixin_47077674/article/details/154695537