谷歌 AI Agent 白皮書：2025 年，智能體時代已來詳情 - 人工智能,google,agent AI4AI社區動態日志

動態

詳情

谷歌 AI Agent 白皮書：2025 年，智能體時代已來 - 動態詳情

12:41 下午 · 11月 05 ,2025

谷歌在 2024 年底發佈了 AI Agent（AI 智能體）白皮書，表明人工智能在商業中將扮演更積極和獨立的角色的未來，並詳細闡述了智能體的概念、架構、運作方式以及相關技術，為智能體的開發和應用提供了理論框架和實踐指導。AI4AI 社區為大家對白皮書內容進行了整理，簡單概括回顧核心內容，歡迎點擊文章底部“閲讀原文”獲取完整版白皮書。

智能體時代已來

人類擅長處理複雜的模式識別任務。然而，我們往往需要藉助工具——比如書籍、Google 搜索或計算器——來補充我們的先驗知識，從而做出最終的判斷。正如人類一樣，生成式 AI 模型也可以通過訓練使用工具，來獲取實時信息或建議現實世界中的行動。

例如，一個模型可以利用數據庫檢索工具來獲取特定信息，如客户的購買歷史，以便生成量身定製的購物建議。或者，根據用户的查詢，模型可以發起各種 API 調用，向同事發送電子郵件回覆，或代表用户完成金融交易。

要做到這一點，模型不僅需要能夠訪問一套外部工具，還需要具備自主的方式規劃和執行任何任務的能力。這種將推理、邏輯和訪問外部信息相結合的方式，都與生成式 AI 模型相關聯，從而引出了對“智能體（Agent）”的概念，即一個超越生成式 AI 模型獨立能力的程序。

什麼是智能體

智能體是一種應用程序，它能通過觀察世界，並利用其可支配的工具來實現特定目標。智能體具備自主性，能夠在沒有人類干預的情況下獨立行動，甚至在沒有明確的人類指令集時，也能主動推理下一步如何實現最終目標。

智能體的行為、動作和決策由其內部的認知架構驅動。一個典型的智能體的認知架構構成包括三個核心組件：

1.模型（The Model）

在智能體的範疇內，模型是指在智能體運行過程中充當核心決策者的語言模型（LM）。它可以是一個或多個不同規模（小型或大型）的 LM，並且能夠理解並執行基於指令的推理和邏輯框架，如 ReAct、Chain-of-Thought 或 Tree-of-Thoughts。模型可以是通用的、多模態的，也可以根據特定智能體架構的需求進行微調。為了獲得最佳的生產效果，應選擇最適合目標應用的模型，並且該模型最好已經過與認知架構中計劃使用的工具相關的數據簽名的訓練。

2.工具（The Tools）

儘管基礎模型在文本和圖像生成方面表現出色，但它們仍受限於無法與外部世界交互。工具彌合了這一差距，使智能體能夠與外部數據和服務進行交互，從而解鎖超越模型本身的一系列操作。工具可以有多種形式，並且具有不同的複雜程度，但通常與常見的 Web API 方法（如 GET、POST、 PATCH 和 DELETE）一致。

3.編排層（The Orchestration Layer）

編排層描述了一個循環過程，它控制着智能體如何接收信息、進行內部推理，並利用該推理來指導其下一個行動或決策。這個循環過程會持續進行，直到智能體達到其目標或停止點。編排層的複雜性因智能體及其執行的任務而異。一些循環可能是簡單的決策規則計算，而另一些可能包含鏈式邏輯、額外的機器學習算法或其他概率推理技術。

通用智能體架構和組件

認知架構：智能體的運作機制

如同忙碌廚房中的廚師，智能體的目標是通過一系列的計劃、執行和調整來為顧客創造“美味佳餚”。他們通過收集信息（如顧客的訂單和食材庫存）、進行內部推理（基於收集到的信息思考可以製作哪些菜餚和風味組合）、採取行動（切菜、調味、煎肉等）來製作美食。在製作過程中，廚師會根據需要進行調整，根據食材消耗或顧客反饋細化計劃，並利用之前的成果來確定下一步行動計劃。

與廚師類似，智能體利用認知架構來迭代處理信息、做出明智決策，並根據之前輸出優化後續行動，最終實現其目標。其核心是編排層，負責維護記憶、狀態、推理和規劃。它利用提示工程領域和相關框架來指導推理和規劃，使智能體能夠更有效地與環境互動並完成任務。

目前，一些主流的提示工程框架和推理技術包括：

ReAct：一種提示工程框架，為語言模型提供了一種推理（Reason）和行動（Act）的策略，無論是否有上下文示例。ReAct 提示已被證明優於多個 SOTA 基線，並提高了 LLM 的可解釋性和可信度。

Chain-of-Thought (CoT)：一種通過中間步驟實現推理能力的提示工程框架。CoT 具有多種子技術，包括自洽性、主動提示和多模態 CoT，每種技術都具有其自身的優勢和劣勢，具體取決於具體的應用場景。

Tree-of-Thoughts (ToT)：一種適用於探索或戰略前瞻任務的提示工程框架。它對思維鏈提示進行了泛化，並允許模型探索各種思維鏈，這些思維鏈作為使用語言模型解決一般問題的中間步驟。

例如，使用 ReAct 框架的智能體在處理用户查詢時，會依次經歷用户發送查詢、智能體開始 ReAct 序列、向模型提供提示以生成下一個 ReAct 步驟及其對應輸出（包括問題、思考、行動、行動輸入、觀察和最終答案）等環節，最終將基於用户原始查詢的經過深思熟慮、簡潔明瞭的回答提供給用户。

具有 ReAct 推理的編排層中的智能體示例

工具：智能體與外部世界的橋樑

目前，Google 模型能夠交互的主要工具類型有三種：擴展（Extensions）、函數（Functions）和數據存儲（Data Stores）。通過為智能體配備工具，可以釋放它們理解世界並對其採取行動的巨大潛力，為無數新的應用和可能性打開了大門。

1.擴展（Extensions）

擴展以標準化的方式橋接了 API 與智能體，使智能體能夠無縫執行 API，無需關心其底層實現。例如，若要構建一個幫助用户預訂航班的智能體，使用 Google Flights API 獲取航班信息時，通過擴展，智能體可以利用示例學習如何使用 API 端點以及成功調用 API 端點所需的參數。

智能體、擴展和 API 之間的一對多關係

為了簡化擴展的使用，Google 提供了一些開箱即用的擴展，可以快速導入到您的項目中，並以最少的配置使用。

2.函數（Functions）

類似於軟件工程中的函數，智能體中的函數是完成特定任務且可根據需要重用的自包含代碼模塊。在軟件工程領域，函數被定義為完成特定任務並且可以根據需要重複使用的自包含代碼模塊。當軟件開發人員編寫程序時，他們通常會創建許多函數來執行各種任務。

在智能體領域，可以用模型“替換”軟件開發人員。模型可以採用一組已知函數，並根據其規範決定何時使用每個函數，以及函數需要哪些參數。函數與擴展的主要區別在於：

模型輸出函數及其參數，但不進行實時 API 調用
函數在客户端執行，而擴展在智能體端執行。

展示函數調用生命週期的序列圖

3.數據存儲（Data Stores）

數據存儲可以被視為一個大型的、不斷更新的知識庫。可以把數據存儲想象成一個龐大的圖書館，其中包含其訓練數據。但與不斷獲取新卷的圖書館不同，這個圖書館保持靜態，僅保存最初訓練時的知識。這提出了一個挑戰，因為現實世界的知識在不斷髮展。

數據存儲通過提供對更動態、最新信息的訪問來解決語言模型知識靜態的限制，確保模型的響應基於事實性和相關性。數據存儲允許開發者以原始格式向智能體提供額外數據，無需耗時的數據轉換、模型重新訓練或微調。數據存儲將傳入文檔轉換為一組向量數據庫嵌入，智能體可以使用這些嵌入來提取所需信息。

數據存儲將智能體連接到各種類型的新實時數據源

在生成式 AI 智能體的上下文中，數據存儲通常被實現為向量數據庫，它以向量嵌入的形式存儲數據，這是一種高維向量或數據的數學表示。開發人員希望智能體在運行時能夠訪問此向量數據庫。

近年來，將數據存儲與語言模型結合使用的最豐富的示例之一是實現基於檢索增強生成（RAG）的應用。 在這些應用中，數據存儲的使用為模型提供了超出基礎訓練數據的知識廣度和深度，例如：

網站內容
PDF、Word 文檔、CSV、電子表格等格式的結構化數據
HTML、PDF、TXT 等格式的非結構化數據

通過定向學習提升模型性能

有效使用模型的關鍵之一是其在生成輸出時選擇正確工具的能力，尤其是在生產中大規模使用工具時。雖然一般訓練有助於模型發展這項技能，但現實世界的場景通常需要超出訓練數據的知識。可以將其想象為基本烹飪技能和掌握特定菜系之間的區別。兩者都需要基本的烹飪知識，但後者需要有針對性的學習才能獲得更細緻的結果。

為了幫助模型獲取特定知識，存在幾種方法：

上下文學習（In-Context Learning）：這種方法是在推理時為通用模型提供提示、工具和少量示例，使其能夠 “即時” 學習如何以及何時為特定任務使用這些工具，ReAct 框架是自然語言中這種學習方法的一個例子。

基於檢索的上下文學習（Retrieval-Based In-Context Learning）：該技術通過從外部存儲器（例如 Vertex AI 擴展中的“示例存儲”或前面提到的基於數據存儲的 RAG 架構）中檢索最相關的信息、工具和相關示例來動態填充模型提示。

基於微調的學習（Fine-Tuning Learning）：在推理之前，使用更大的特定示例數據集來訓練模型，這有助於模型在接收任何用户查詢之前瞭解何時以及如何應用某些工具。

LangChain 和 LangGraph 是兩個流行的開源庫，允許用户通過將邏輯、推理和工具調用序列“鏈接”在一起來構建自定義智能體，以回答用户的查詢。

展望未來，“智能體鏈式連接（Agent Chaining）” 作為極具潛力的戰略性方向，通過將在特定領域或任務中表現卓越的專業智能體有機結合，打造出 “智能體專家組合” 方法，能夠在各行業以及各類問題領域中展現出超凡的性能，為不同行業的發展注入全新活力。相信隨着對智能體研究與應用的不斷深入，它必將在未來的科技發展浪潮中，為各個行業帶來翻天覆地的變化，引領我們走向一個更加智能、便捷與高效的新時代。

google , 人工智能 , agent