本文總結 MaybeAI 團隊在 MCP(Model Context Protocol) 框架下構建生產級 AI 工作流系統的經驗。

從最初的“讓模型在運行時直接生成代碼”到後來的“規劃期驗證 + 組件化執行”,我們在失敗與重構中逐步建立起一個可擴展、可複用、可驗證的工作流體系。

一、背景:為什麼“自動化更強”,卻不代表“更可靠”

過去一年,越來越多平台在談「智能工作流」:LLM 規劃、代碼生成、自動調用工具……

但當這些邏輯進入真實業務場景(CRM、銷售、財務、營銷分析)後,問題開始暴露。

MaybeAI 的經驗是:

如果把運行期代碼生成作為默認路徑,穩定性會迅速失控。

我們最初的實現方式是——讓 LLM 在運行時生成並執行工具調用代碼。

幾個月的實踐後,得到的現實是:

  • 超過 20% 的運行失敗率
  • 忘記 await 語句造成阻塞
  • 類型不匹配、邊界異常頻發
  • 工作流多步串行後成功率驟降

簡單的數學説明一切:

每步成功率 95%,十步流程整體成功率僅 60%。
對於處理真實客户數據的業務工作流,這是完全不可接受的。

二、關鍵轉變:從運行期生成到規劃期驗證

我們決定把代碼生成從運行期前移到規劃期

新架構如下:

自然語言 → DSL 計劃(由預構建組件組成) → 驗證 → 執行

在這種模式下:

  • LLM 不再輸出整段可執行代碼;
  • 而是選擇、排列並驗證已有組件(Components),組成可解釋的執行計劃;
  • 驗證邏輯在執行前完成,運行期只負責確定性調度。

我們稱這種模式為 Definition-first Workflow(定義優先工作流)

它讓 AI 的創造性存在於“規劃階段”,而執行階段完全遵循工程規則。

三、控制流與數據流的解耦:讓工作流可擴展

工作流的穩定性,取決於對控制流(Control Flow)和數據流(Data Flow)的分離程度。

流程類型

職責

實現方式

控制流(Planning)

決定執行順序、條件、分支邏輯

LLM 解析需求 → DSL 規劃

數據流(Runtime)

管理數據在任務間的流動與計算

DataFrame 在內存中直接傳遞,不經 LLM 上下文

這種分離帶來顯著優勢:

  • 可處理超出上下文窗口的大型數據集
  • LLM 僅訪問摘要信息,降低成本與風險
  • 用户可獲得實時預覽(類似 Excel 視圖)
  • 整體計算過程可觀測、可審計、可回放

這讓工作流平台具備了“AI 規劃 + 確定性執行”的雙重特性。

四、業務視角:可重現比“智能”更重要

MaybeAI 的主要用户包括:

  • 銷售運營團隊
  • 市場與分析人員
  • 財務與商業數據部門

他們希望系統:“每週一上午 9 點,按計劃自動生成報告。”

在這類固定節奏的工作流中,

“智能反思與重試”聽上去很先進,但對業務而言,不確定性就是風險

  • 一封錯誤的郵件
  • 一張寫錯字段的報表

這些都不是“bug”,而是“業務後果”。

因此我們的原則是:

自然語言規劃層 + 確定性執行層(Deterministic Execution)

外層對用户仍是對話式體驗,

但底層執行邏輯必須穩定、可審計、可回放

五、工程要點:從概念到可生產的工作流體系

技術原則

説明

前置驗證

在規劃階段校驗類型與邏輯,提前捕獲錯誤。

強類型與 Schema 校驗

所有輸入輸出需明確定義,保障一致性。

組件化執行

預構建可重用組件,減少動態代碼生成。

用户心智映射

模型決策結構貼近業務用户的表格與任務思維。

我們發現:

  • 工程上的確定性 比“模型智能”更能贏得信任;
  • Schema 與日誌 是連接 AI 層與業務層的真正橋樑。

六、MCP 框架下的經驗與未來方向

MCP(Model Context Protocol)讓工作流能夠在不同工具、模型與執行環境間保持一致的通信標準。

但要想在生產級環境下落地,還需要配合以下架構思路:

  1. 規劃期驗證(Validation before Execution):確保執行圖可解釋、可復現。
  2. 組件庫治理(Reusable, Audited Components):提高複用率、減少潛在錯誤。
  3. 執行日誌與回放機制(Replayable Execution):讓每次運行都能被追蹤、優化、再利用。

MaybeAI 的工作流系統正基於此演進:

通過自然語言定義任務,通過 MCP 標準執行任務,讓系統在確定性執行中不斷學習。

七、開放問題:Tool Composition 的工程化挑戰

雖然 MCP 統一了協議層,但工具組合(Tool Composition)仍是整個生態的難題:

  • 不同組件的輸入輸出如何標準化?
  • 如何在並行任務中保持一致性與隔離性?
  • 如何實現跨模塊的監控、回滾與版本控制?

這些問題目前沒有標準答案。

MaybeAI 正在探索「工具註冊 + Schema 對齊 + 路由評估」的自動治理框架,也歡迎其他團隊分享他們在大規模工作流編排中的實踐。

八、結論(Conclusion)

生產級工作流與實驗性自動化的最大區別在於:

可靠性、可驗證性、可複用性。

MaybeAI 在 MCP 架構下的探索告訴我們:

  • 代碼生成不是目標,清晰定義才是。
  • AI 規劃不是魔法,需要強類型約束與組件治理。
  • 確定性執行不是保守,而是業務級穩定性的前提。

真正的智能,不是隨機嘗試的成功率,而是系統持續復現正確結果的能力。

TL;DR

  • 動態代碼生成在多步工作流中成功率低、難以復現;
  • 將生成邏輯前移到規劃期,通過 DSL + 組件組合實現可控執行;
  • 分離控制流與數據流,提高擴展性與可靠性;
  • 工作流平台的核心價值是“可重現、可審計、可複用”。