作者:森馬 數字中心-杭州研發部;基礎運維部、阿里雲產品運營專家劉森(延德)

本文導讀:

森馬快速實現 AI 轉型,通過阿里雲 AI 網關(即 Higress 企業版)及註冊配置中心 Nacos3.0 實現了多模型多 MCP server 統一接入統一管理統一配置,將存量服務一鍵轉換為 MCP server,使 AI 與生產業務相結合,綜合提效 30%。

森馬簡介

上海森馬服飾有限公司(以下簡稱“森馬”)是中國休閒服飾和童裝領域的領先企業,旗下擁有“森馬”、“balabala”、“mini bala”等十餘個核心品牌。其中,balabala 品牌在中國童裝市場佔有率連續多年位居第一,並躋身全球童裝市場前列。集團覆蓋線上線下全渠道零售,門店總數達到 8000+ 家。2025 年 7 月 23 日,中國服裝協會發布“2024 行業百企發佈”名單。森馬服飾憑藉卓越的市場表現,成功入圍“營業收入”、“利潤總額”和“營業收入利潤率”三項指標榜單,再次彰顯其在國內服裝行業的領軍地位。

自 2023 年起,森馬中台技術團隊正式啓動 AI 探索之旅。初期,團隊基於 Serverless 函數計算平台,為設計師與消費者提供高效的服飾設計支持,顯著提升了圖像生成效率與顧客滿意度。

進入 2025 年,森馬全面加速 AI 戰略佈局,將智能化能力快速延伸至法務、財務、採購、物流、IT 及運維等多個核心業務領域,面向集團內外部團隊提供高效、可複用的 AI 服務,持續釋放組織生產力。在此過程中,團隊聚焦“大森 3.0 平台”建設,以“快速上線、持續優化”為核心目標,推進智能體(AI Agent)的規模化落地。通過構建標準化、模塊化的智能體架構,實現從需求識別、開發訓練到部署運營的高效閉環,大幅縮短 AI 應用交付週期,加速 AI 價值在業務場景中的轉化與沉澱。

森馬在 AI 時代面臨的挑戰

然而在 AI 轉型過程中,隨着 AI 在業務中使用越來越深入,森馬的技術團隊同學們陸續發現瞭如下問題:

  1. 模型太多,不好管。 森馬在百鍊平台調用不同的商業化模型,同時自身還有在 PAI 平台訓練/微調的模型,不同的模型如何進行統一管理統一鑑權;
  2. 誰用了多少 AI?成本怎麼分攤? 森馬的不同模型都會交叉給到各個業務團隊進行使用,如何整體統計各個團隊及二級經營單元的 AI 使用情況、以及後續成本如何分攤給各業務單元;
  3. 模型偶爾“罷工”,影響體驗。 大模型整體 SLA 有限,當部分模型服務出現問題的時候,如何確保業務團隊的使用體感,避免問幾次問題均返回失敗導致業務團隊對大模型印象降低而放棄使用的問題;
  4. 老系統改造太麻煩。 森馬的 AI 業務強依賴於存量的幾百個微服務,全部手工轉成 MCP server 費時費力。

上述問題看起來都有解法,但是需要森馬的技術同學在業務研發以外投入較大人力才得以解決。為了快速解決上述問題,森馬引入了阿里雲 AI 網關進行模型與 MCP server 的統一管理,提高了 AI 的落地效率。

為什麼選擇阿里雲 AI 網關

森馬技術團隊選擇阿里雲 AI 網關,主要基於以下考量:

1. 統一模型入口

AI 網關面向 AI 場景全新打造,可以統一管理商業大模型服務和用户自建的大模型服務,並統一對外暴露的 API (兼容 OpenAI),截止 2025 年 8 月,AI 網關已支持包括阿里雲百鍊、OpenAI 等在內十幾家國內外大模型供應商和自建大模型服務(如 ollama).

2. 模型切換與模型路由管理

AI 網關提供按比例、按模型名稱等多種形式的 AI API 集成方式,用户可根據業務需求靈活配置;當 Model API 的模型服務因異常、故障或高負載而無法正常響應時,通過配置 Fallback 切換到備用模型,有效避免因模型服務中斷導致的響應失敗問題。

企業級AI應用落地:森馬如何通過AI網關解決大模型“多而雜、難觀測、不穩健”的挑戰?_阿里雲AI網關

3. 安全可控

AI 網關提供多模型統一的鑑權、限流、api key 分發、內容安全等能力,解決用户在安全方面的顧慮;消費者鑑權通過 API key 的認證方式驗證調用者的身份,精準控制 API 訪問權限,實現多租户細粒度管控,保障敏感數據隔離與合規調用,有效防止未授權訪問和資源濫用。限流策略專為大模型服務及高併發調用場景設計,採用基於調用 Token 量的動態控制機制,取代傳統請求數或請求體積的限流方式。該策略可針對消費者身份、請求 Header 參數、Query 參數、客户端 IP 等多維度配置限流規則,根據單次 API 調用消耗的 Token 總量進行實時計費和流量管控。這種以 Token 消耗為核心的限流模式能精準匹配大模型計算資源消耗特性,有效防止系統過載、接口濫用及惡意調用,同時保障核心業務在複雜場景下的穩定運行。AI 網關支持多種限流範圍(如每秒、每分鐘、每小時、每天),可以根據業務需求靈活調整限流規則,確保系統在高併發場景下仍能穩定運行。同時支持通過對特定消費者、header、query 參數或 cookie 進行限流,可以有效限制爬蟲或自動化工具的訪問頻率,保護數據安全。

企業級AI應用落地:森馬如何通過AI網關解決大模型“多而雜、難觀測、不穩健”的挑戰?_Higress_02

4. AI 觀測

結合阿里雲可觀測產品,AI 網關提供統一 AI 觀測能力,包括 AI 請求的 Metrics、Logging 和 Tracing 能力。與一般的 API 觀測不同,AI 觀測支持按 Token 維度對 AI 調用進行統計,支持 API、模型、消費者等觀測維度,AI 請求和響應的日誌也會被記錄下來,用於後續的追蹤與審計。核心指標包括 token 消耗數、QPS、請求成功率、首包延遲(TTFT)、每 token 輸出時長(TPOT)等。同時,所有網關日誌及 MCP 服務日誌均可保存至阿里雲日誌服務 SLS 中,用户可以根據業務需求進行告警、加工、投遞等相關操作。

企業級AI應用落地:森馬如何通過AI網關解決大模型“多而雜、難觀測、不穩健”的挑戰?_MCP_03

企業級AI應用落地:森馬如何通過AI網關解決大模型“多而雜、難觀測、不穩健”的挑戰?_森馬_04

5. 存量業務一鍵升級 MCP

AI 網關的 MCP 服務管理能力提供 RESTful API 至 MCP 服務的平滑遷移能力,支持SSE、Streamable HTTP 兩種協議訪問,並集成基於消費者身份的鑑權認證機制,為企業級 API 治理提供技術支撐。此外,MCP 支持直接代理模式,適用於原生支持 MCP 協議的服務。該模式能夠實現高效的流式通信和上下文保持,特別適合高併發、長連接的場景,例如 AI 推理、多模型協同等。同時,MCP 還可與 Nacos Registry 深度集成,通過 Nacos 提供的 MCP Router 功能,實現服務註冊發現及協議自動轉換,支持存量 HTTP 服務“零改動”升級為 MCP 協議接口,結合 AI 網關實現服務的動態治理與智能路由。

MCP 服務管理能力覆蓋的業務場景:森馬全域貨通中台 1 個工作台、2 個智能體、8 個業務場景、4 種解決範式(商品缺貨分析,2B2C 找貨分貨,智能鏈路排查等業務場景),MDM 主數據,大森 3.0 平台。

企業級AI應用落地:森馬如何通過AI網關解決大模型“多而雜、難觀測、不穩健”的挑戰?_森馬_05

消費者認證

企業級AI應用落地:森馬如何通過AI網關解決大模型“多而雜、難觀測、不穩健”的挑戰?_阿里雲AI網關_06

MCP 調用統計

企業級AI應用落地:森馬如何通過AI網關解決大模型“多而雜、難觀測、不穩健”的挑戰?_森馬_07

6、緩存

在重複性強的 AI 請求場景,AI 網關通過 Redis 精確緩存與語義緩存的雙引擎協同,實現對大語言模型(LLM)調用的降本增效。直接減少用户請求等待時間提高用户體驗,並減少 token 消耗降低企業模型調用成本。

通過使用 AI 網關的相關能力,森馬在 AI 領域的應用上線時間縮短了 50%,用户體驗提高了 60%,AI 請求成功率提高了 50%,AI 網關持續支持森馬落地更多 AI 應用。

未來規劃

基於與阿里雲 AI 網關的深度合作基礎,森馬將以“動態協同、效率躍遷、價值倍增”為核心,持續深化 AI 技術與業務場景的深度融合,重點聚焦兩大方向發力:

1. 深化 AI 網關動態路由能力,實現 LLM 智能調度與價值最大化

森馬將充分發揮 AI 網關的動態路由優勢,構建“業務場景 - 模型能力 - 資源消耗”的智能匹配體系。通過精準識別不同業務場景(如設計生成、法務合規審核、供應鏈智能調度、客户服務應答)的核心需求,結合模型的擅長領域(如創意生成類優先調用生成式大模型、數據計算類優先調用輕量化推理模型)、響應速度、Token 成本等多維度指標,實現 LLM 的動態調用與智能切換。例如,設計師進行服飾圖案創意生成時,自動路由至生成質量更優的模型;財務團隊進行票據數據提取時,切換至效率更高、成本更低的輕量化模型,讓每一次 AI 調用都精準匹配業務價值需求。

2. 構建業務 - AI 一體化動態流量均衡體系,保障全域服務穩定性與高效能

針對服飾行業“大促峯值、新品上市、供應鏈波動”等場景下的流量波動特點,森馬將基於 AI 網關的流量治理能力,打造“業務場景 - AI 服務 - 計算資源”三位一體的動態均衡機制。通過實時監控不同業務線(零售、商品供應鏈、研發)的 AI 調用流量、Token 消耗峯值、模型負載狀態,自動調整流量分配策略:在大促期間,優先保障線上客服、訂單履約等核心業務的 AI 資源供給,通過流量削峯與錯峯調度避免系統過載;在日常運營中,動態均衡各二級經營單元的 AI 資源佔用,確保法務、採購等後台業務的穩定響應。同時,結合 Nacos3.0 的服務註冊發現能力,實現 AI 流量與存量業務流量的協同調度,讓全域系統在高併發、強波動場景下仍能保持 99.9% 以上的可用性,既避免資源浪費,又杜絕業務中斷風險。