真實案例覆盤：從“三套煙囱”到 All in ES，這家企業如何砍掉 40% 運維成本？詳情 - 阿里雲,搜索,elasticsearch,人工智能阿里雲大數據AI 博客

文 / 阿里雲AI搜索產研團隊

在做搜索技術架構諮詢時，我們經常聽到一句話：“我也知道業務系統複雜，但不知道怎麼簡化架構部署?”

今天，我們想聊聊 “某知名互聯網泛娛樂視覺平台 A”（以下簡稱 A 公司）的搜索架構演進故事。他們的雲上遷移經歷，是無數正在為“技術棧碎片化”與"AI搜索架構改造"頭疼的企業的真實寫照。

第一階段：為了業務的“快”，他們建了三根煙囱

一年前，A 公司的技術架構負責人老李面臨着極大的壓力。隨着原先的檢索業務引入全量日誌審計的運維管理，再到接入大模型 RAG（檢索增強生成），他們的架構變成了典型的“拼湊型”：

通用搜索業務：素材中台、視頻/表情包關鍵詞檢索，涉及大規模用户、話題及活動信息。跑在開源ES集羣上。

日誌檢索業務：為了合規存儲海量 Access Log，採購了獨立的日誌服務。App行為日誌、服務端系統日誌，用於性能監控與運營決策。為了省錢又把部分老日誌導到了對象存儲裏，查詢極其不便。

向量檢索業務：基於視覺特徵的相似圖片檢索、基於用户畫像的智能推薦（如相似濾鏡、模板推薦）。為了做 RAG 和猜你喜歡，又不得不單獨搭建了一套開源Milvus。

老李的痛點非常具體：

“半夜燒錢”：A 公司的流量有明顯的潮汐效應。每天晚上 8 點到 12 點是日誌寫入洪峯，但凌晨 2 點到早上 8 點流量極低。為了抗住那 4 小時的峯值，他們必須按最高水位購買日誌資源。結果就是：每天有 16 個小時，昂貴的計算資源在空轉。突發流量導致的擴容壓力與存儲成本不成正比。

“膠水代碼”：在做 RAG 時，開發同學需要在代碼裏先查 Milvus 拿 ID，再回查 ES 拿文本。不僅代碼難維護，一旦出現數據不一致（比如文章刪了，向量還在），用户就會點進 404 頁面，投訴率飆升。

“三根煙囱”，多種搜索能力隔離分開，開發與運維成本極高，難以支持複雜的跨模態檢索。

“蝸行牛步”：全量同步耗時長，大數據量下的實時更新與索引重建效率低下。

第二階段：做減法，擁抱 All in ES

在與阿里雲AI搜索專家團隊深聊後，A 公司決定進行一次徹底技術“斷舍離”，將AI搜索所需的多種技術棧統一收斂到阿里雲 Elasticsearch 上。

日誌場景：把“固定資產”變成“電費單” A 公司首先改造的是最燒錢的日誌系統。他們沒有繼續購買龐大的自建ES節點，而是接入了阿里雲 ES 的高性能寫入托管服務Indexing Service 和混合存儲服務OpenStore。

變化前：為了抗峯值，常駐 20 台 8C32G 的機器。凌晨流量跌到谷底時，這 20 台機器依然在計費。

變化後：徹底 Serverless 化。晚高峯流量來了，雲端自動擴容扛壓；凌晨流量沒了，計費幾乎歸零。存儲方面，數據自動沉降到 OpenStore（對象存儲介質），成本直接對其歸檔存儲。

老李的反饋：“以前是養車，不管開不開都得付折舊和保險；現在是打車，跑多少付多少。單這一項，日誌賬單降了 60%。”
向量場景：刪掉膠水代碼，迴歸原生 解決了日誌，A 公司開始動刀向量搜索。他們利用阿里雲 ES 內核級強化的混合向量引擎，替代了獨立的向量庫。

變化前：應用 -> 查向量庫 -> 拿 ID -> 查 ES -> 應用層排序。延遲 200ms+。

變化後：應用 -> 阿里雲 ES (混合檢索 API) -> 返回結果。

由於阿里雲 ES 全自研雲原生引擎FalconSeek在內核層引入了 SIMD 指令集加速和 HNSW 算法優化，在千萬級數據量下，性能完全滿足 A 公司的需求。更重要的是，他們終於可以用一個 DSL 語句同時搞定“語義搜索 + 關鍵詞匹配 + 邊時間過濾邊檢索”。

老李的反饋：“架構圖上少了一個框，代碼裏少了幾百行膠水邏輯，開發同學終於不用在兩個庫之間修數據一致性的 Bug 了。”

為什麼選擇 All in ES？因為“統一”本身就是生產力

A 公司的故事並非孤例。當他們將日誌、搜索、向量收斂到阿里雲 Elasticsearch 這一套技術棧上時，發生的不僅僅是成本的降低：

系統架構優化：

極致的計算資源彈性（Serverless）：對於日誌這種具有明顯“峯谷效應”的數據，傳統的預置機器模式註定是浪費。阿里雲 ES 的 Indexing Service 讓算力像水一樣流動，“用時付費，不用免費”，這才是雲原生該有的樣子。
運維標準的統一：現在，A 公司的運維團隊只需要精通 ES 這一門手藝。無論是查業務慢查詢，還是做日誌分析，亦或是管理向量索引，都在同一個控制枱，遵循同一套安全標準（RBAC/VPC），看同一套監控大盤。
數據價值的閉環：日誌數據進來，清洗後直接可以用於業務分析；業務數據進來，直接生成向量用於推薦。數據在同一個生態內流轉，沒有中間商賺差價。

日誌檢索增強：

在A公司中廣泛使用的日誌檢索，採用阿里雲Elasticsearch企業版以下方面進行全面優化。

極致寫入優化 - Indexing service讀寫分離，綜合寫入成本降低60%

高性能：專業級寫入優化，多自研特性加持(物理複製,定向路由等)
高穩定：多集羣冗餘備份，秒級切換
低成本：寫入資源，存儲大小及介質等優化
彈性擴展：寫入資源由雲端後台調配和管理，以應對流量波動
免運維：無須關注寫入資源和寫入壓力, 極大降低集羣運維成本

存算分離優化 - OpenStore混合存儲架構，存儲成本降低60%以上

採用存算分離架構，降低數據冗餘存儲
採用對象存儲降低存儲成本
多級緩存及併發查詢保證查詢性能

專業級查詢優化:

針對日誌場景的典型查詢case進行深度優化，提高用户查詢性能，如bkd查詢優化等
貼近用户業務，針對用户使用過程中的查詢問題進行定製優化，如在支持A客户中遇到的cardinality開源缺陷導致的查詢性能問題等。

向量索引調優：

向量索引在AI搜索場景中越來越重要，A公司為提高性能，降低整體成本，充分採用了阿里雲ES的若干優化手段。成功的將成本降低一倍以上，查詢性能提升數倍以上：

自研FalconSeek雲原生索引應用：阿里雲最新發布全自研雲原生C++內核引擎, 對文本檢索與向量檢索性能提升，向量性能進一步提升40%以上。使用FalconSeek的Filter-Knn特性，性能提升最多4倍。
執行Force Merge：存量數據定期執行Force Merge，性能提升5倍以上。
原文排除向量字段：在寫入的source中排除向量字段，存儲空間節約1倍以上。
混合搜索： 採用RRF（Reciprocal Rank Fusion） 算法或自定義線性權重，將向量相似度得分與BM25文本得分進行加權融合，以兼顧檢索的精確性與泛化性。

成本效能對比與選型建議

根據A公司遷移阿里雲的測算分析，企業在構建多場景AI搜索時，可重點關注以下成本指標：

維度	建議方案	價值產出
計算資源	自研FalconSeek引擎應用選用計算型ecs.g8i或r8i系列	提升向量運算（HNSW等算法）的吞吐量
存儲資源	OpenStore存算分離架構	解決日誌/冷數據存儲高成本痛點
寫入性能	Indexing Service高寫入服務，開啓物理複製（Physical Replication）	降低高併發寫入時的CPU佔用
運維效率	統一公用集羣與素材中台集羣	減少20%以上的碎片化人力投入

總結：One Stack一站式搜索, 簡單架構是最好的架構

回看 A 公司的搜索技術演進之路，其實就是一條從“做加法”到“做減法”的路。

對於架構師：你的系統拓撲圖變清晰了，數據鏈路變短了，系統穩定性變強了。

對於運維：只要精通 ES 一門產品技術手藝，就能搞定全公司的核心數據檢索全鏈路。

對於老闆：TCO（總擁有成本）顯著下降，同時獲得了企業級的安全合規保障。

不要讓複雜的工具鏈拖累你的業務創新的速度。

從今天開始，參考 A 公司的路徑，重新審視你的架構。嘗試阿里雲 Elasticsearch企業版，體驗“All in ES”帶來的極簡與高效。

阿里雲大數據AI 博客

阿里雲大數據AI 博客

博客 / 詳情