博客 / 詳情

返回

2026年第二週學習——規劃與工具調用原理

核心目標

掌握任務拆解邏輯(CoT思維鏈)、工具調用的核心流程

學習資料

1. 論文:《ReAct: Synergizing Reasoning and Acting》

https://arxiv.org/pdf/2210.03629;
翻譯版直接使用豆包翻譯即可

2. 文檔:LangChain官方文檔“Agent核心概念”章節

LangChain 官方文檔“Agent 核心概念”章節核心資料彙總

以下內容均提取自 LangChain 官方文檔(含多語言官方站:JavaScript、Python、Go),按“概念定義→核心組件→Agent 類型→工作流程→關鍵運行時/API”邏輯梳理,確保貼合官方表述:

一、Agent 官方核心定義

LangChain 官方對 Agent 的核心定位是:結合語言模型(LLM)與工具集,能夠動態推理任務目標、自主選擇工具、迭代執行動作以解決複雜任務的“決策型組件”,區別於“固定流程的 Chain”,核心優勢是“根據實時上下文調整行為”。

  • 來自 LangChain 官方 JavaScript 文檔(docs.langchain.com):Agents combine language models with tools to create systems that can reason about tasks, decide which tools to use, and iteratively work towards solutions.
  • 來自 LangChain 官方 Python 中文文檔(python.langchain.com.cn):代理的核心思想是使用 LLM 來選擇要採取的一系列動作,而非執行固定的工具調用鏈;Agent 可訪問工具集合,根據用户輸入動態決定是否/如何調用工具。
  • 來自 LangChain 官方 Go 文檔(tmc.github.io/langchaingo):Agents enable autonomous behavior by allowing language models to dynamically choose which tools to use based on user input — unlike predetermined chains, agents make real-time decisions about their actions.

二、Agent 核心組件(官方定義)

LangChain 官方文檔明確 Agent 系統由 5大核心組件 構成,各組件職責與實現方式如下:

1. 模型(Model):Agent 的“推理引擎”

模型是 Agent 決策的核心,負責分析任務、判斷需調用的工具及參數,官方支持“靜態模型”和“動態模型”兩種配置:

  • 靜態模型(Static Model):創建 Agent 時固定配置,全程不變(最常用)。

    • 支持通過“模型標識符字符串”快速初始化(格式:provider:model,如 openai:gpt-4o);
    • 也可通過 provider 包創建實例,自定義參數(如 temperaturemaxTokenstimeout、API 密鑰等)。
    • 示例代碼(JavaScript 官方文檔):

      import { createAgent } from "langchain";
      import { ChatOpenAI } from "@langchain/openai";
      const model = new ChatOpenAI({ model: "gpt-4o", temperature: 0.1, maxTokens: 1000 });
      const agent = createAgent({ model, tools: [] });
  • 動態模型(Dynamic Model):運行時根據當前狀態/上下文動態選擇模型(用於成本優化、複雜路由),需通過 wrapModelCall middleware 實現。
  • 來源:LangChain 官方 JavaScript 文檔(docs.langchain.com)Go 官方文檔(tmc.github.io/langchaingo)

2. 工具(Tools):Agent 的“執行手腳”

工具是 Agent 可調用的外部功能模塊,官方強調“工具需有清晰描述(讓 LLM 識別使用場景)”,並支持“工具包”和“錯誤處理”:

  • 工具定義:任何可被 LLM 調用的功能(如搜索引擎、計算器、API 接口、文件操作、數據庫查詢),需明確 name(工具名)和 toolInput(調用參數)。
  • 工具包(Toolkit):官方推薦的“工具集合”,含 3-5 個實現特定目標的關聯工具(如“網頁問答工具包”含“搜索工具+摘要工具”),降低 Agent 選工具的複雜度。
  • 工具錯誤處理:官方 Agent 運行時會自動處理工具調用異常(如工具不存在、參數錯誤、執行超時),無需手動捕獲。
  • 工具與 ReAct 循環:工具需嵌入 ReAct(Reasoning + Action)循環,Agent 通過“思考→調用工具→獲取觀察”迭代使用工具。
  • 來源:LangChain 官方 JavaScript 文檔(docs.langchain.com)Python 中文文檔(python.langchain.com.cn)Go 官方文檔(tmc.github.io/langchaingo)

3. 執行器(Agent Executor):Agent 的“運行管理器”

執行器是 Agent 的核心運行時,負責管理“決策→執行→反饋”的循環,解決 Agent 執行中的複雜性問題:

  • 核心職責

    1. 調用 Agent 生成下一步動作(get_action());
    2. 執行工具並獲取觀察結果(run(next_action));
    3. 循環直到滿足停止條件(Agent 輸出 AgentFinish 或達迭代上限);
    4. 處理異常:工具不存在、工具執行錯誤、Agent 輸出無法解析為工具調用、全流程日誌記錄(支持輸出到 stdout 或 LangSmith)。
  • 官方核心實現

    • 主流運行時:AgentExecutor 類(Python/JavaScript/Go 均支持,官方默認推薦);
    • 進階運行時:基於 LangGraph 的圖狀運行時(通過 createAgent() 創建,將 Agent 流程拆分為“模型節點”“工具節點”“中間件節點”,支持複雜狀態流轉)。
  • 官方偽代碼(Python 中文文檔):

    next_action = agent.get_action(...)
    while next_action != AgentFinish:
        observation = run(next_action)
        next_action = agent.get_action(..., next_action, observation)
    return next_action
  • 來源:LangChain 官方 Python 中文文檔(python.langchain.com.cn)JavaScript 文檔(docs.langchain.com)Go 官方文檔(tmc.github.io/langchaingo)

4. 記憶(Memory):Agent 的“上下文存儲”

記憶是可選但關鍵的組件,負責維持 Agent 與用户的交互上下文(如多輪對話歷史、工具調用記錄),避免“上下文丟失”:

  • 官方支持的記憶類型:對話緩存記憶(ConversationBufferMemory)、向量存儲記憶(結合 Chroma 等向量庫實現長期記憶)等;
  • 核心作用:讓 Agent 在迭代決策中“記住”歷史動作與觀察,無需重複調用工具或重複詢問用户。
  • 來源:LangChain 官方 JavaScript 文檔(docs.langchain.com)Go 官方文檔(tmc.github.io/langchaingo)

5. 系統提示(System Prompt):Agent 的“行為準則”

指導 Agent 推理邏輯與工具選擇的提示詞,官方支持“靜態”和“動態”兩種:

  • 靜態系統提示:創建 Agent 時固定,全程指導 Agent 行為(如“你是一個數據分析 Agent,僅使用計算器和數據庫工具”);
  • 動態系統提示:運行時根據當前任務狀態調整(如根據用户輸入的任務類型切換提示詞)。
  • 來源:LangChain 官方 JavaScript 文檔(docs.langchain.com)

三、官方定義的 Agent 類型

LangChain 官方文檔明確支持以下核心 Agent 類型,適配不同場景:

Agent 類型 核心特點 適用場景 來源(官方文檔)
ReAct Agent(MRKL) 遵循“思考(Thought)→ 行動(Action)→ 觀察(Observation)”循環,結合推理與動作 複雜多步驟任務、需要可解釋性的場景 JavaScript/Go/Python 官方文檔
OpenAI Functions Agent 依賴 OpenAI 函數調用能力,支持結構化工具參數傳遞,減少解析錯誤 需精準調用工具(如 API 傳參)的場景 Go 官方文檔(tmc.github.io/langchaingo)
Conversational Agent 支持多輪對話上下文,動態調用工具時維持對話連貫性 聊天型應用、需要上下文交互的任務 Go 官方文檔、Python 中文文檔
Plan-and-Execute Agent 先通過 LLM 生成任務計劃(分步驟),再按計劃迭代執行工具 長期規劃類任務(如“寫一篇論文”) Python 中文文檔、Go 官方文檔
Zero-shot Agent 無需訓練,僅通過工具描述和用户輸入選擇工具,無歷史記憶 簡單多工具調用任務 Python 中文文檔

四、Agent 官方工作流程(通用)

LangChain 官方文檔統一描述的 Agent 工作流程如下(迭代循環):

  1. 接收輸入:Agent 接收用户的自然語言任務或查詢;
  2. 計劃動作:模型分析輸入,結合工具描述和上下文(記憶),決定下一步調用的工具及參數(輸出 AgentAction);
  3. 執行工具:執行器調用選中的工具,獲取觀察結果(Observation);
  4. 處理結果:模型評估觀察結果是否滿足任務目標;
  5. 決定下一步:若未完成,重複“計劃→執行→處理”;若完成,輸出 AgentFinish(含最終結果);
  6. 返回響應:將最終結果整理為自然語言反饋給用户。
  7. 來源:LangChain 官方 Python/JavaScript/Go 文檔

五、官方關鍵 API/工具(快速上手)

  1. 核心創建 API

    • JavaScript/TypeScript:createAgent()(基於 LangGraph 構建生產級 Agent,支持模型、工具、中間件配置);
    • Python:initialize_agent()(快速初始化 Agent,如 initialize_agent(tools, llm, agent="react-description"));
    • Go:agents.New()(結合工具集和模型創建 Agent)。
  2. 官方調試工具:LangSmith(官方觀測平台,記錄 Agent 決策過程、工具調用日誌、錯誤信息)。
  3. 來源:LangChain 官方 JavaScript 文檔(docs.langchain.com)Python 中文文檔(python.langchain.com.cn)

六、官方文檔訪問鏈接(直接查看原文)

  1. LangChain 官方 JavaScript 文檔(Agent 核心概念):https://docs.langchain.com/oss/javascript/langchain/agents
  2. LangChain 官方 Python 中文文檔(Agent 核心):https://python.langchain.com.cn/docs/modules/agents/
  3. LangChain 官方 Go 文檔(Agent 核心):https://tmc.github.io/langchaingo/docs/modules/agents/
  4. LangChain 官方 JavaScript 中文文檔(Agent 接口定義):https://js.langchain.com.cn/docs/modules/agents/

    實戰任務

    1. 手動編寫1個CoT提示詞(比如“拆解‘做一份AI Agent學習週報’的任務”);

    提示詞設計思路

    符合 CoT 核心:引導模型 “逐步思考”,從目標→模塊→內容→順序→落地,層層遞進,模擬人類拆解任務的邏輯;
    具體性:限定場景(自學覆盤),明確每個思考環節的輸出要求,避免模型輸出模糊內容;
    可落地性:每個步驟綁定 “行動 + 目的”,拆解後能直接按步驟執行,無需額外細化。

提示詞示例

請以“逐步思考”的方式拆解“做一份AI Agent學習週報(面向自學場景,用於自我覆盤+後續優化學習計劃)”的完整任務,要求拆解後的步驟具體可執行、邏輯連貫,每個步驟説明“做什麼+為什麼做”,最終形成可直接落地的執行流程:

  1. 先明確週報的核心目標和受眾(自我覆盤用),這是拆解的基礎——因為目標決定內容側重點,比如自學覆盤需要突出“學會的知識點、未掌握的難點、實戰中的問題”;
  2. 接着思考一份“有價值的AI Agent學習週報”應該包含哪些核心模塊?每個模塊的核心作用是什麼?(比如是否需要“學習內容彙總”“關鍵知識點拆解”“實戰成果展示”“問題與改進”“下週計劃”等,説明每個模塊的必要性);
  3. 然後針對每個核心模塊,進一步細化“具體要填寫什麼內容”“需要哪些素材支撐”(比如“實戰成果展示”需要明確“做了哪個項目、用了什麼工具、實現了什麼功能、遇到什麼坑、怎麼解決的”);
  4. 再規劃模塊的排列順序(邏輯上從“學了什麼”到“懂了什麼”再到“做了什麼”“要改進什麼”,符合覆盤的認知邏輯);
  5. 最後確定每個步驟的大致時間分配和輸出格式(比如用Markdown排版,每個模塊控制在多少字數,整體耗時多久),確保任務可落地執行。

請按照這個思考邏輯,輸出完整的任務拆解步驟,每個步驟清晰説明“行動+目的”,避免籠統表述。

2. 列出3個AI Agent常用工具及應用場景(如搜索引擎、計算器)

以下工具均來自權威行業文檔(如 CSDN、阿里雲、騰訊雲報告),覆蓋個人效率、企業辦公、流程自動化核心場景,附具體落地案例增強實用性:

1. 實時信息檢索工具(如搜索引擎、實時數據庫 API)

核心功能
AI Agent 通過調用搜索引擎(如百度、Google)或實時數據 API(如行業數據庫、新聞接口),獲取模型訓練數據之外的最新、動態、跨領域信息,解決 LLM “知識過時”“信息侷限” 問題。
典型應用場景
實時熱點 / 行業動態跟蹤:企業市場部 Agent 調用新聞 API,每日自動抓取 “AI Agent 行業最新政策”“競爭對手動態”,生成 500 字摘要報告(參考摘要 1、2,如騰訊雲智能對話平台集成搜索工具處理電商售後諮詢);
跨領域知識驗證與補充:科研 Agent 在撰寫論文時,通過搜索引擎驗證 “2025 年 AI Agent 市場規模” 等數據(避免模型幻覺),並補充最新學術論文鏈接(參考摘要 3,Paper Agent 自動檢索 arXiv 最新文獻);
場景化事實確認:個人助理 Agent 幫用户規劃旅行時,調用天氣 API 獲取目的地實時天氣、交通 API 查詢航班動態,調整行程建議(參考摘要 6,OpenAI Operator 代用户完成旅行規劃)。
代表工具 / 技術
百度搜索 API、Tavily 搜索工具、行業垂直數據庫接口(如 IDC 市場報告 API)。

2. 文檔處理與知識管理工具(如 Notion AI、RAG Agent)

核心功能
實現 “文檔解析→信息提取→知識結構化→問答交互” 全流程自動化,支持多格式文檔(PDF、Word、筆記),解決 “信息碎片化”“知識複用難” 問題。
典型應用場景
會議紀要與待辦提取:企業辦公 Agent 接入 Zoom/Teams 錄音,自動轉文字並提取 “參會人員、討論要點、待辦事項(負責人 + 截止時間)”,生成 Markdown 格式紀要(參考摘要 4,基於 LangChain 的會議紀要 Agent);
私有知識庫問答:研發團隊 Agent 將技術文檔、代碼註釋、故障解決方案上傳至 RAG 知識庫,新員工提問 “如何排查 API 調用錯誤” 時,Agent 基於內部文檔精準回答(參考摘要 4,SharePoint Agents、RAG Agent);
文檔結構化整理:學生 Agent 將課程筆記、課件 PDF 上傳至 Notion AI Agent,自動生成 “章節大綱 + 重點公式 + 考點標註”,支持後續檢索(參考摘要 3,Notion AI Agent 的文檔大綱生成功能)。
代表工具 / 技術
Notion AI Agent、RAG(檢索增強生成)工具、Quick BI 文檔解讀 Agent(瓴羊)。

3. 流程自動化工具(RPA+AI 融合型,如實在 Agent、金智維)

核心功能
從傳統 RPA(固定規則執行)進化為 “AI 決策 + 自動化執行”,支持跨系統操作(如 Excel、CRM、財務軟件),替代人工完成重複、規則明確、高容錯要求的流程性工作。
典型應用場景
財務報銷審核自動化:企業財務 Agent(如實在 Agent)接收員工報銷單,自動讀取發票金額、校驗 “差旅補貼標準”(調用企業規則庫)、錄入 Excel 台賬,異常單據自動標記並通知審核員(參考摘要 3,實在 Agent 的財務流程自動化案例);
客户信息跨系統同步:電商 Agent 將訂單系統的 “客户姓名、聯繫方式” 自動同步至 CRM 系統,同時更新庫存管理系統的 “商品剩餘數量”,避免人工錄入錯誤(參考摘要 6,金智維的跨系統數據整合功能);
政務 / 企業數據歸檔:政務 Agent 將居民辦事材料(身份證、申請表)掃描件轉化為結構化數據,自動歸檔至政務數據庫,並生成 “歸檔編號” 反饋給用户(參考摘要 6,RPA+AI 在政務場景的落地)。
代表工具 / 技術
實在 Agent(基礎版免費)、金智維(金融級)、Adept AI(企業軟件自動化)。
工具選擇建議
個人 / 輕量需求:優先選 “搜索引擎 + 文檔處理工具”(如 ChatGPT Agent+Notion AI),滿足學習、辦公基礎需求;
企業流程需求:優先 RPA+AI 工具(如實在 Agent、金智維),聚焦 “降本增效” 場景(如財務、客服);
高精準度需求:搭配 “實時檢索工具 + 文檔工具”,避免模型幻覺(如科研、金融風控)。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.