2026年第二週學習——規劃與工具調用原理詳情 - 人工智能,ai-agent AIAgent研究博客

核心目標

掌握任務拆解邏輯（CoT思維鏈）、工具調用的核心流程

學習資料

1. 論文：《ReAct: Synergizing Reasoning and Acting》

https://arxiv.org/pdf/2210.03629；
翻譯版直接使用豆包翻譯即可

2. 文檔：LangChain官方文檔“Agent核心概念”章節

LangChain 官方文檔“Agent 核心概念”章節核心資料彙總

以下內容均提取自 LangChain 官方文檔（含多語言官方站：JavaScript、Python、Go），按“概念定義→核心組件→Agent 類型→工作流程→關鍵運行時/API”邏輯梳理，確保貼合官方表述：

一、Agent 官方核心定義

LangChain 官方對 Agent 的核心定位是：結合語言模型（LLM）與工具集，能夠動態推理任務目標、自主選擇工具、迭代執行動作以解決複雜任務的“決策型組件”，區別於“固定流程的 Chain”，核心優勢是“根據實時上下文調整行為”。

來自 LangChain 官方 JavaScript 文檔（docs.langchain.com）：Agents combine language models with tools to create systems that can reason about tasks, decide which tools to use, and iteratively work towards solutions.
來自 LangChain 官方 Python 中文文檔（python.langchain.com.cn）：代理的核心思想是使用 LLM 來選擇要採取的一系列動作，而非執行固定的工具調用鏈；Agent 可訪問工具集合，根據用户輸入動態決定是否/如何調用工具。
來自 LangChain 官方 Go 文檔（tmc.github.io/langchaingo）：Agents enable autonomous behavior by allowing language models to dynamically choose which tools to use based on user input — unlike predetermined chains, agents make real-time decisions about their actions.

二、Agent 核心組件（官方定義）

LangChain 官方文檔明確 Agent 系統由 5大核心組件 構成，各組件職責與實現方式如下：

1. 模型（Model）：Agent 的“推理引擎”

模型是 Agent 決策的核心，負責分析任務、判斷需調用的工具及參數，官方支持“靜態模型”和“動態模型”兩種配置：

靜態模型（Static Model）：創建 Agent 時固定配置，全程不變（最常用）。
- 支持通過“模型標識符字符串”快速初始化（格式：provider:model，如 openai:gpt-4o）；
- 也可通過 provider 包創建實例，自定義參數（如 temperature、maxTokens、timeout、API 密鑰等）。
- 示例代碼（JavaScript 官方文檔）：
```
import { createAgent } from "langchain";
import { ChatOpenAI } from "@langchain/openai";
const model = new ChatOpenAI({ model: "gpt-4o", temperature: 0.1, maxTokens: 1000 });
const agent = createAgent({ model, tools: [] });
```
動態模型（Dynamic Model）：運行時根據當前狀態/上下文動態選擇模型（用於成本優化、複雜路由），需通過 wrapModelCall middleware 實現。
來源：LangChain 官方 JavaScript 文檔（docs.langchain.com）、Go 官方文檔（tmc.github.io/langchaingo）。

2. 工具（Tools）：Agent 的“執行手腳”

工具是 Agent 可調用的外部功能模塊，官方強調“工具需有清晰描述（讓 LLM 識別使用場景）”，並支持“工具包”和“錯誤處理”：

工具定義：任何可被 LLM 調用的功能（如搜索引擎、計算器、API 接口、文件操作、數據庫查詢），需明確 name（工具名）和 toolInput（調用參數）。
工具包（Toolkit）：官方推薦的“工具集合”，含 3-5 個實現特定目標的關聯工具（如“網頁問答工具包”含“搜索工具+摘要工具”），降低 Agent 選工具的複雜度。
工具錯誤處理：官方 Agent 運行時會自動處理工具調用異常（如工具不存在、參數錯誤、執行超時），無需手動捕獲。
工具與 ReAct 循環：工具需嵌入 ReAct（Reasoning + Action）循環，Agent 通過“思考→調用工具→獲取觀察”迭代使用工具。
來源：LangChain 官方 JavaScript 文檔（docs.langchain.com）、Python 中文文檔（python.langchain.com.cn）、Go 官方文檔（tmc.github.io/langchaingo）。

3. 執行器（Agent Executor）：Agent 的“運行管理器”

執行器是 Agent 的核心運行時，負責管理“決策→執行→反饋”的循環，解決 Agent 執行中的複雜性問題：

核心職責：
1. 調用 Agent 生成下一步動作（get_action()）；
2. 執行工具並獲取觀察結果（run(next_action)）；
3. 循環直到滿足停止條件（Agent 輸出 AgentFinish 或達迭代上限）；
4. 處理異常：工具不存在、工具執行錯誤、Agent 輸出無法解析為工具調用、全流程日誌記錄（支持輸出到 stdout 或 LangSmith）。
官方核心實現：
- 主流運行時：AgentExecutor 類（Python/JavaScript/Go 均支持，官方默認推薦）；
- 進階運行時：基於 LangGraph 的圖狀運行時（通過 createAgent() 創建，將 Agent 流程拆分為“模型節點”“工具節點”“中間件節點”，支持複雜狀態流轉）。

官方偽代碼（Python 中文文檔）：

next_action = agent.get_action(...)
while next_action != AgentFinish:
    observation = run(next_action)
    next_action = agent.get_action(..., next_action, observation)
return next_action

來源：LangChain 官方 Python 中文文檔（python.langchain.com.cn）、JavaScript 文檔（docs.langchain.com）、Go 官方文檔（tmc.github.io/langchaingo）。

4. 記憶（Memory）：Agent 的“上下文存儲”

記憶是可選但關鍵的組件，負責維持 Agent 與用户的交互上下文（如多輪對話歷史、工具調用記錄），避免“上下文丟失”：

官方支持的記憶類型：對話緩存記憶（ConversationBufferMemory）、向量存儲記憶（結合 Chroma 等向量庫實現長期記憶）等；
核心作用：讓 Agent 在迭代決策中“記住”歷史動作與觀察，無需重複調用工具或重複詢問用户。
來源：LangChain 官方 JavaScript 文檔（docs.langchain.com）、Go 官方文檔（tmc.github.io/langchaingo）。

5. 系統提示（System Prompt）：Agent 的“行為準則”

指導 Agent 推理邏輯與工具選擇的提示詞，官方支持“靜態”和“動態”兩種：

靜態系統提示：創建 Agent 時固定，全程指導 Agent 行為（如“你是一個數據分析 Agent，僅使用計算器和數據庫工具”）；
動態系統提示：運行時根據當前任務狀態調整（如根據用户輸入的任務類型切換提示詞）。
來源：LangChain 官方 JavaScript 文檔（docs.langchain.com）。

三、官方定義的 Agent 類型

LangChain 官方文檔明確支持以下核心 Agent 類型，適配不同場景：

Agent 類型	核心特點	適用場景	來源（官方文檔）
ReAct Agent（MRKL）	遵循“思考（Thought）→ 行動（Action）→ 觀察（Observation）”循環，結合推理與動作	複雜多步驟任務、需要可解釋性的場景	JavaScript/Go/Python 官方文檔
OpenAI Functions Agent	依賴 OpenAI 函數調用能力，支持結構化工具參數傳遞，減少解析錯誤	需精準調用工具（如 API 傳參）的場景	Go 官方文檔（tmc.github.io/langchaingo）
Conversational Agent	支持多輪對話上下文，動態調用工具時維持對話連貫性	聊天型應用、需要上下文交互的任務	Go 官方文檔、Python 中文文檔
Plan-and-Execute Agent	先通過 LLM 生成任務計劃（分步驟），再按計劃迭代執行工具	長期規劃類任務（如“寫一篇論文”）	Python 中文文檔、Go 官方文檔
Zero-shot Agent	無需訓練，僅通過工具描述和用户輸入選擇工具，無歷史記憶	簡單多工具調用任務	Python 中文文檔

四、Agent 官方工作流程（通用）

LangChain 官方文檔統一描述的 Agent 工作流程如下（迭代循環）：

接收輸入：Agent 接收用户的自然語言任務或查詢；
計劃動作：模型分析輸入，結合工具描述和上下文（記憶），決定下一步調用的工具及參數（輸出 AgentAction）；
執行工具：執行器調用選中的工具，獲取觀察結果（Observation）；
處理結果：模型評估觀察結果是否滿足任務目標；
決定下一步：若未完成，重複“計劃→執行→處理”；若完成，輸出 AgentFinish（含最終結果）；
返回響應：將最終結果整理為自然語言反饋給用户。
來源：LangChain 官方 Python/JavaScript/Go 文檔。

五、官方關鍵 API/工具（快速上手）

核心創建 API：
- JavaScript/TypeScript：createAgent()（基於 LangGraph 構建生產級 Agent，支持模型、工具、中間件配置）；
- Python：initialize_agent()（快速初始化 Agent，如 initialize_agent(tools, llm, agent="react-description")）；
- Go：agents.New()（結合工具集和模型創建 Agent）。
官方調試工具：LangSmith（官方觀測平台，記錄 Agent 決策過程、工具調用日誌、錯誤信息）。
來源：LangChain 官方 JavaScript 文檔（docs.langchain.com）、Python 中文文檔（python.langchain.com.cn）。

六、官方文檔訪問鏈接（直接查看原文）

LangChain 官方 JavaScript 文檔（Agent 核心概念）：https://docs.langchain.com/oss/javascript/langchain/agents
LangChain 官方 Python 中文文檔（Agent 核心）：https://python.langchain.com.cn/docs/modules/agents/
LangChain 官方 Go 文檔（Agent 核心）：https://tmc.github.io/langchaingo/docs/modules/agents/
LangChain 官方 JavaScript 中文文檔（Agent 接口定義）：https://js.langchain.com.cn/docs/modules/agents/

實戰任務

1. 手動編寫1個CoT提示詞（比如“拆解‘做一份AI Agent學習週報’的任務”）；

提示詞設計思路

符合 CoT 核心：引導模型 “逐步思考”，從目標→模塊→內容→順序→落地，層層遞進，模擬人類拆解任務的邏輯；
具體性：限定場景（自學覆盤），明確每個思考環節的輸出要求，避免模型輸出模糊內容；
可落地性：每個步驟綁定 “行動 + 目的”，拆解後能直接按步驟執行，無需額外細化。

提示詞示例

請以“逐步思考”的方式拆解“做一份AI Agent學習週報（面向自學場景，用於自我覆盤+後續優化學習計劃）”的完整任務，要求拆解後的步驟具體可執行、邏輯連貫，每個步驟説明“做什麼+為什麼做”，最終形成可直接落地的執行流程：

先明確週報的核心目標和受眾（自我覆盤用），這是拆解的基礎——因為目標決定內容側重點，比如自學覆盤需要突出“學會的知識點、未掌握的難點、實戰中的問題”；

接着思考一份“有價值的AI Agent學習週報”應該包含哪些核心模塊？每個模塊的核心作用是什麼？（比如是否需要“學習內容彙總”“關鍵知識點拆解”“實戰成果展示”“問題與改進”“下週計劃”等，説明每個模塊的必要性）；

然後針對每個核心模塊，進一步細化“具體要填寫什麼內容”“需要哪些素材支撐”（比如“實戰成果展示”需要明確“做了哪個項目、用了什麼工具、實現了什麼功能、遇到什麼坑、怎麼解決的”）；

再規劃模塊的排列順序（邏輯上從“學了什麼”到“懂了什麼”再到“做了什麼”“要改進什麼”，符合覆盤的認知邏輯）；

最後確定每個步驟的大致時間分配和輸出格式（比如用Markdown排版，每個模塊控制在多少字數，整體耗時多久），確保任務可落地執行。

請按照這個思考邏輯，輸出完整的任務拆解步驟，每個步驟清晰説明“行動+目的”，避免籠統表述。

2. 列出3個AI Agent常用工具及應用場景（如搜索引擎、計算器）

以下工具均來自權威行業文檔（如 CSDN、阿里雲、騰訊雲報告），覆蓋個人效率、企業辦公、流程自動化核心場景，附具體落地案例增強實用性：

1. 實時信息檢索工具（如搜索引擎、實時數據庫 API）

核心功能
AI Agent 通過調用搜索引擎（如百度、Google）或實時數據 API（如行業數據庫、新聞接口），獲取模型訓練數據之外的最新、動態、跨領域信息，解決 LLM “知識過時”“信息侷限” 問題。
典型應用場景
實時熱點 / 行業動態跟蹤：企業市場部 Agent 調用新聞 API，每日自動抓取 “AI Agent 行業最新政策”“競爭對手動態”，生成 500 字摘要報告（參考摘要 1、2，如騰訊雲智能對話平台集成搜索工具處理電商售後諮詢）；
跨領域知識驗證與補充：科研 Agent 在撰寫論文時，通過搜索引擎驗證 “2025 年 AI Agent 市場規模” 等數據（避免模型幻覺），並補充最新學術論文鏈接（參考摘要 3，Paper Agent 自動檢索 arXiv 最新文獻）；
場景化事實確認：個人助理 Agent 幫用户規劃旅行時，調用天氣 API 獲取目的地實時天氣、交通 API 查詢航班動態，調整行程建議（參考摘要 6，OpenAI Operator 代用户完成旅行規劃）。
代表工具 / 技術
百度搜索 API、Tavily 搜索工具、行業垂直數據庫接口（如 IDC 市場報告 API）。

2. 文檔處理與知識管理工具（如 Notion AI、RAG Agent）

核心功能
實現 “文檔解析→信息提取→知識結構化→問答交互” 全流程自動化，支持多格式文檔（PDF、Word、筆記），解決 “信息碎片化”“知識複用難” 問題。
典型應用場景
會議紀要與待辦提取：企業辦公 Agent 接入 Zoom/Teams 錄音，自動轉文字並提取 “參會人員、討論要點、待辦事項（負責人 + 截止時間）”，生成 Markdown 格式紀要（參考摘要 4，基於 LangChain 的會議紀要 Agent）；
私有知識庫問答：研發團隊 Agent 將技術文檔、代碼註釋、故障解決方案上傳至 RAG 知識庫，新員工提問 “如何排查 API 調用錯誤” 時，Agent 基於內部文檔精準回答（參考摘要 4，SharePoint Agents、RAG Agent）；
文檔結構化整理：學生 Agent 將課程筆記、課件 PDF 上傳至 Notion AI Agent，自動生成 “章節大綱 + 重點公式 + 考點標註”，支持後續檢索（參考摘要 3，Notion AI Agent 的文檔大綱生成功能）。
代表工具 / 技術
Notion AI Agent、RAG（檢索增強生成）工具、Quick BI 文檔解讀 Agent（瓴羊）。

3. 流程自動化工具（RPA+AI 融合型，如實在 Agent、金智維）

核心功能
從傳統 RPA（固定規則執行）進化為 “AI 決策 + 自動化執行”，支持跨系統操作（如 Excel、CRM、財務軟件），替代人工完成重複、規則明確、高容錯要求的流程性工作。
典型應用場景
財務報銷審核自動化：企業財務 Agent（如實在 Agent）接收員工報銷單，自動讀取發票金額、校驗 “差旅補貼標準”（調用企業規則庫）、錄入 Excel 台賬，異常單據自動標記並通知審核員（參考摘要 3，實在 Agent 的財務流程自動化案例）；
客户信息跨系統同步：電商 Agent 將訂單系統的 “客户姓名、聯繫方式” 自動同步至 CRM 系統，同時更新庫存管理系統的 “商品剩餘數量”，避免人工錄入錯誤（參考摘要 6，金智維的跨系統數據整合功能）；
政務 / 企業數據歸檔：政務 Agent 將居民辦事材料（身份證、申請表）掃描件轉化為結構化數據，自動歸檔至政務數據庫，並生成 “歸檔編號” 反饋給用户（參考摘要 6，RPA+AI 在政務場景的落地）。
代表工具 / 技術
實在 Agent（基礎版免費）、金智維（金融級）、Adept AI（企業軟件自動化）。
工具選擇建議
個人 / 輕量需求：優先選 “搜索引擎 + 文檔處理工具”（如 ChatGPT Agent+Notion AI），滿足學習、辦公基礎需求；
企業流程需求：優先 RPA+AI 工具（如實在 Agent、金智維），聚焦 “降本增效” 場景（如財務、客服）；
高精準度需求：搭配 “實時檢索工具 + 文檔工具”，避免模型幻覺（如科研、金融風控）。

AIAgent研究博客

AIAgent研究博客

博客 / 詳情