本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解 BigQuery 遷移至 MaxCompute 過程中的關鍵挑戰與技術創新。本篇為第十一篇,基於 MaxCompute Resource & Quota 策略優化實現資源管理性能與成本最優平衡。

注:客户背景為東南亞頭部科技集團,文中用 GoTerra 表示。

1. 背景

GoTerra 作為東南亞互聯網頭部企業,其業務生態覆蓋網約車、電商、外賣、物流及金融支付等多個垂直領域,內部採用多賬户架構(10+ Accounts,70+ Projects)及上百個資源額度組(Quota Group)進行精細化管理。在從 BigQuery 遷移至阿里雲MaxCompute 的過程中,對資源管理的核心訴求在於通過智能彈性資源分配策略,動態適配業務負載波動,在控制成本的同時避免資源瓶頸,實現性能與成本的最優平衡。面臨以下核心挑戰:

多業務線資源協調複雜

  • 規模龐大:跨10+獨立業務單元(Account),涉及70+項目(Project),需創建100+資源額度組(Quota Group),資源管理顆粒度極細。
  • 資源預留成本壓力:每個Quota Group需按配置預留資源(CU),預付費模式下資源閒置與成本控制難以平衡。

計費模式差異帶來的不確定性

  • MaxCompute:預付費CU + 定時彈性資源模式,遷移前缺乏歷史數據支撐,無法精準預估所需CU量,存在資源預留不足(性能瓶頸)或過度配置(成本浪費)的雙重風險

多類型作業資源需求衝突

  • ETL作業:需保障1小時內完成海量數據處理,依賴高吞吐計算資源。
  • BI作業:要求10-15分鐘低延遲響應,需快速分配臨時資源。
  • 並存挑戰:長週期ETL與短週期BI作業共享資源池,如何動態調度以避免資源爭搶、同時滿足不同SLA(服務等級協議),成為性能與成本平衡的關鍵難題。

2. Resource Advisor和TopN Fair

2.1. Resource Advisor

2.1.1. 核心挑戰

資源預估難題:

  • 計費模式差異
  • 作業類型複雜

多業務實體管理,每個業務實體需獨立阿里雲賬號,SLA要求不同,導致資源購買量預期不一致:

  • 超買:資源閒置浪費,擠佔集羣容量
  • 少買:作業堆積,等資源時間長,影響業務數據產出

如何在控制成本的前提下,動態適配業務負載波動,避免資源瓶頸

2.1.2. 分層資源配置策略

【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡_阿里雲

其中AutoScaleQuota是應對GoTerra遷移場景新增的產品類型,解決遷移過程中,業務資源需求變化快,作業性能要求高的需求:

分層配置策略特點:

  • 靈活組合:支持預付費、分時彈性與自動彈性任意搭配,滿足不同業務場景的降本增效需求
  • 極致成本:自動彈性部分,按實際使用量計費;相比擴縮槽等預留付費模式更加經濟實惠
  • 開箱即用:基於負載感知的自動彈性擴縮容,配置簡單
  • 秒級彈性:對比BigQuery限制擴縮容步長和窗口期,MaxCompute更加靈活及時
  • 資源穩定:基於歷史數據和預測模型進行資源調度優化,保障彈性庫存供給

2.1.3. 智能資源推薦與彈性配置

【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡_數據倉庫_02

資源推薦工具(T+1動態調優)

核心功能:基於歷史數據的作業運行日誌與資源消耗,結合作業類型(ETL/BI)的SLA要求,預測次日CU需求。

技術實現:

  • 數據採集:抓取作業運行時長、CPU/內存消耗、併發度等指標。
  • 作業分類模型:自動識別ETL/BI作業。
  • 資源預測算法:
  • 線性迴歸:基於歷史資源消耗趨勢預測基線需求。
  • 彈性緩衝:根據業務波動率增加10%-20%冗餘量。
  • 反饋優化:每日對比實際資源消耗與預測值,動態調整模型參數。

【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡_阿里雲_03

2.1.4. 推薦效果

GoTerra遷入MaxCompute過程中,MaxCompute進行了深度架構升級和性能優化,同時在合理的資源配置規劃下,根據用户歷史作業數據定期推薦用户Quota組配置和策略,每月實際產生費用約降低到BigQuery的42%。

2.2. TopN Fair

2.2.1. 現有調度策略侷限性

【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡_阿里雲_04

GOTO業務需求

  • 混合負載場景:ETL(長作業)與BI(短作業)並存
  • 核心訴求:
  • 長作業優先:先提交的ETL作業需保障足夠併發資源
  • 短作業友好:後提交的BI作業可短時借用資源,但不顯著影響長作業進度

2.2.2. 新策略:TopN Fair + 動態併發保障

2.2.2.1. 核心設計目標
  • 資源隔離:確保長作業的最低併發度(JobMinimumConcurrency)。
  • 彈性資源複用:在滿足長作業的前提下,允許Quota組保留部分資源給短作業動態借用。
  • 優先級分層:結合作業類型(ETL/BI)和提交時間,實現混合調度。
2.2.2.2. 關鍵參數定義

JobMinimumConcurrency(最低併發度):

  • 每個作業運行所需的最小併發度。
  • 全局配置項,例如:JobMinimumCnotallow=10 表示每個作業至少分配10個併發單元。

TopN Fair策略:

  • TopN作業:按提交時間排序,在至少保障每個作業JobMinimumConcurrency併發度的情況下,挑選前N個作業分配Quota組資源
2.2.2.3. 動態N值計算公式

【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡_阿里雲_05

2.2.3. 策略優勢

【跨國數倉遷移最佳實踐11】基於 MaxCompute Resource & Quota策略優化實現資源管理性能與成本最優平衡_數據倉庫_06

2.2.4. 實際效果

整集羣作業平均運行數下降15.7%,作業運行時Latency 95分位值下降45.7%,GoTerra用户的效果較好的Quota組,作業平均運行數下降31.3%, 作業運行時Latency 95分位值下降75.4%。

3. 結語與展望

GoTerra遷移到MaxCompute後,Resource Advisor持續通過智能資源推薦優化成本,目標將總體費用控制在BigQuery的40%以內。隨着新產品AutoScaleQuota上線,資源管理實現全自動化:基於業務負載動態調整配額,無需人工干預,徹底解決突發流量導致的資源不足與作業等待問題。同時,TopN Fair已在印尼集羣全面上線,後續的發展方向:分析各Quota組作業執行模式,自動配置JobMinimumConcurrency並動態切換調度策略,進一步提升資源利用率。

在性能與成本優化的基礎上,穩定性也是一個非常重要的目標,系統穩定性目標達99.99%可用性,保障GoTerra在MaxCompute上實現“低成本、高效率、強穩定”的運行體驗。