本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解 BigQuery 遷移至 MaxCompute 過程中的關鍵挑戰與技術創新。本篇為第十一篇,基於 MaxCompute Resource & Quota 策略優化實現資源管理性能與成本最優平衡。
注:客户背景為東南亞頭部科技集團,文中用 GoTerra 表示。
1. 背景
GoTerra 作為東南亞互聯網頭部企業,其業務生態覆蓋網約車、電商、外賣、物流及金融支付等多個垂直領域,內部採用多賬户架構(10+ Accounts,70+ Projects)及上百個資源額度組(Quota Group)進行精細化管理。在從 BigQuery 遷移至阿里雲MaxCompute 的過程中,對資源管理的核心訴求在於通過智能彈性資源分配策略,動態適配業務負載波動,在控制成本的同時避免資源瓶頸,實現性能與成本的最優平衡。面臨以下核心挑戰:
多業務線資源協調複雜
- 規模龐大:跨10+獨立業務單元(Account),涉及70+項目(Project),需創建100+資源額度組(Quota Group),資源管理顆粒度極細。
- 資源預留成本壓力:每個Quota Group需按配置預留資源(CU),預付費模式下資源閒置與成本控制難以平衡。
計費模式差異帶來的不確定性
- MaxCompute:預付費CU + 定時彈性資源模式,遷移前缺乏歷史數據支撐,無法精準預估所需CU量,存在資源預留不足(性能瓶頸)或過度配置(成本浪費)的雙重風險
多類型作業資源需求衝突
- ETL作業:需保障1小時內完成海量數據處理,依賴高吞吐計算資源。
- BI作業:要求10-15分鐘低延遲響應,需快速分配臨時資源。
- 並存挑戰:長週期ETL與短週期BI作業共享資源池,如何動態調度以避免資源爭搶、同時滿足不同SLA(服務等級協議),成為性能與成本平衡的關鍵難題。
2. Resource Advisor和TopN Fair
2.1. Resource Advisor
2.1.1. 核心挑戰
資源預估難題:
- 計費模式差異
- 作業類型複雜
多業務實體管理,每個業務實體需獨立阿里雲賬號,SLA要求不同,導致資源購買量預期不一致:
- 超買:資源閒置浪費,擠佔集羣容量
- 少買:作業堆積,等資源時間長,影響業務數據產出
如何在控制成本的前提下,動態適配業務負載波動,避免資源瓶頸
2.1.2. 分層資源配置策略
其中AutoScaleQuota是應對GoTerra遷移場景新增的產品類型,解決遷移過程中,業務資源需求變化快,作業性能要求高的需求:
分層配置策略特點:
- 靈活組合:支持預付費、分時彈性與自動彈性任意搭配,滿足不同業務場景的降本增效需求
- 極致成本:自動彈性部分,按實際使用量計費;相比擴縮槽等預留付費模式更加經濟實惠
- 開箱即用:基於負載感知的自動彈性擴縮容,配置簡單
- 秒級彈性:對比BigQuery限制擴縮容步長和窗口期,MaxCompute更加靈活及時
- 資源穩定:基於歷史數據和預測模型進行資源調度優化,保障彈性庫存供給
2.1.3. 智能資源推薦與彈性配置
資源推薦工具(T+1動態調優)
核心功能:基於歷史數據的作業運行日誌與資源消耗,結合作業類型(ETL/BI)的SLA要求,預測次日CU需求。
技術實現:
- 數據採集:抓取作業運行時長、CPU/內存消耗、併發度等指標。
- 作業分類模型:自動識別ETL/BI作業。
- 資源預測算法:
- 線性迴歸:基於歷史資源消耗趨勢預測基線需求。
- 彈性緩衝:根據業務波動率增加10%-20%冗餘量。
- 反饋優化:每日對比實際資源消耗與預測值,動態調整模型參數。
2.1.4. 推薦效果
GoTerra遷入MaxCompute過程中,MaxCompute進行了深度架構升級和性能優化,同時在合理的資源配置規劃下,根據用户歷史作業數據定期推薦用户Quota組配置和策略,每月實際產生費用約降低到BigQuery的42%。
2.2. TopN Fair
2.2.1. 現有調度策略侷限性
GOTO業務需求
- 混合負載場景:ETL(長作業)與BI(短作業)並存
- 核心訴求:
- 長作業優先:先提交的ETL作業需保障足夠併發資源
- 短作業友好:後提交的BI作業可短時借用資源,但不顯著影響長作業進度
2.2.2. 新策略:TopN Fair + 動態併發保障
2.2.2.1. 核心設計目標
- 資源隔離:確保長作業的最低併發度(JobMinimumConcurrency)。
- 彈性資源複用:在滿足長作業的前提下,允許Quota組保留部分資源給短作業動態借用。
- 優先級分層:結合作業類型(ETL/BI)和提交時間,實現混合調度。
2.2.2.2. 關鍵參數定義
JobMinimumConcurrency(最低併發度):
- 每個作業運行所需的最小併發度。
- 全局配置項,例如:JobMinimumCnotallow=10 表示每個作業至少分配10個併發單元。
TopN Fair策略:
- TopN作業:按提交時間排序,在至少保障每個作業JobMinimumConcurrency併發度的情況下,挑選前N個作業分配Quota組資源
2.2.2.3. 動態N值計算公式
2.2.3. 策略優勢
2.2.4. 實際效果
整集羣作業平均運行數下降15.7%,作業運行時Latency 95分位值下降45.7%,GoTerra用户的效果較好的Quota組,作業平均運行數下降31.3%, 作業運行時Latency 95分位值下降75.4%。
3. 結語與展望
GoTerra遷移到MaxCompute後,Resource Advisor持續通過智能資源推薦優化成本,目標將總體費用控制在BigQuery的40%以內。隨着新產品AutoScaleQuota上線,資源管理實現全自動化:基於業務負載動態調整配額,無需人工干預,徹底解決突發流量導致的資源不足與作業等待問題。同時,TopN Fair已在印尼集羣全面上線,後續的發展方向:分析各Quota組作業執行模式,自動配置JobMinimumConcurrency並動態切換調度策略,進一步提升資源利用率。
在性能與成本優化的基礎上,穩定性也是一個非常重要的目標,系統穩定性目標達99.99%可用性,保障GoTerra在MaxCompute上實現“低成本、高效率、強穩定”的運行體驗。