摘要:在字節跳動,平衡超大規模流量的穩定性、性能、容量與成本,是一系列產品共同面臨的挑戰,其中, Trafficroute GTM 起到了不可忽視的作用。
Trafficroute GTM 承載了字節跳動億級流量、覆蓋了大規模場景,是一款基於 DNS 的流量路由服務,我們將通過兩期文章,揭秘字節跳動如何通過 Trafficroute GTM 巧妙應對以上挑戰,實現高效流量管理!
上期內容中,我們主要介紹了基於 TrafficRoute GTM 的 GEO-基礎路由模式進行自定義流量編排。本文為下期,主要介紹基於 TrafficRoute GTM 的 Perf-智能路由模式落地全智能、可觀測、可微調的流量調度,主要內容包括:
- TrafficRoute GTM 介紹
- TrafficRoute GTM 的 Perf-智能路由關鍵技術
- 字節跳動智能流量調度內部實踐
面臨超大規模流量時,平衡好穩定性、性能、容量、成本,能確保用户在訪問服務時獲得流暢、快速且可靠的體驗,這對於提高用户滿意度和粘性至關重要。TrafficRoute GTM 為業務提供基於 DNS 的全球流量負載均衡、智能調度、自動容災服務,可以幫助業務提升連續性,實現資源優化,獲取更多競爭優勢。
1.火山引擎 Trafficroute GTM 簡介
火山引擎 Trafficroute GTM 是基於 DNS 的流量路由服務。它依託全球 1100+ 分佈式探測節點及 IDC 質量數據等,構建出強大的網絡質量感知能力,實現了對“端-邊-雲”全鏈路流量的質量感知,從而根據 APP 應用的實時訪問質量、節點負載和健康狀況作出動態流量調度。
此外,Trafficroute GTM 還提供靈活的調度策略,其中 GEO-基礎路由功能豐富,包括負載均衡、會話粘性(內部使用中,暫未對外開放)和故障轉移等多種特性。而 Perf-智能路由則在基礎路由的基礎上,進一步提供性能優先,容量優先和負載反饋等智能調度能力,以滿足更高層次的調度需求。
一圖看懂 TrafficRoute GTM
在字節跳動內部業務中,諸多業務基於 TrafficRoute GTM 的 Perf-智能路由,藉助 GTM 的全球網絡質量地圖、APP 全鏈路可用性、APP 實時負載等感知能力落地了全智能、可觀測、可微調的流量調度。
2.Perf-智能路由,實現流量智能調度
TrafficRoute GTM 的 Perf-智能路由旨在為邊緣計算、IoT 物聯網、多雲混合等大規模分佈式場景提供智能化的流量調度方案。用户無需人工進行流量編排,只需在 GTM 中輸入目標節點地址,GTM 即刻呈現最優的流量調度策略;同時,GTM 會根據全球網絡質量,目標節點健康狀況等動態的更新流量調度規則,真正地實現自動、智能的流量調度。
憑藉以下關鍵技術,Perf-智能路由實現了更智能、更動態的流量調度。
2.1 感知中心GTM
感知中心通過分佈於全球 1100+ 的節點實時採集:全球網絡鏈路質量,反映網絡鏈路的連通性/時延/抖動等目標資源健康情況,反映業務的資源節點當前健康程度目標資源實時負載,反映業務的資源節點當前工作負荷這些數據經過預處理、轉換、分析後作為策略中心的決策依據。
以感知中心生成的中國大陸的網絡質量地圖為例:
該有向圖表達了 6 個省份-運營商之間的網絡質量,節點代表省份-運營商,邊表示節點之間的連通性&時延&抖動。在實際應用中,GTM的策略中心亦可根據業務需求,對該有向圖施加【成本系數、ISP親和、GEO親和】等約束,這些約束最終會影響到流量調度。
2.2 策略中心
策略中心根據感知中心上報的事件,利用實例設定的策略算法進行路由計算,進而生成動態的調度拓撲。Perf-智能路由主要有 3 種模式,分別面向對性能、容量、成本、穩定性等有不同訴求的業務場景。
性能優先 | Perf
適用於量級可控、資源容量充沛、追求極致性能的業務
- 核心原理:據全球網絡質量,動態的將各地區的客户端調度至其訪問最快的資源節點
- 核心特色:以數據(網絡質量)驅動調度而非經驗,將流量調度變得更加智能、實時、精確
容量優先 | Perf-Cap
適用於量級中等,資源分佈不均,要求在資源約束下實現最高性能的業務
- 核心原理:根據全球網絡質量,在容量限制的前提下,動態地將各地區客户端調度至其訪問最快的資源節點
- 核心特色:在 Perf 性能優先的基礎上,引入資源節點容量的約束,能夠更加智能的實現容量,性能的平衡
負載反饋 | Perf-Feedback
適用於量級波動大,資源分佈廣且不均,追求容量&性能&成本的平衡,尤其適合邊緣下沉場景
- 核心原理:根據全局和節點負載,動態的將流量在可用節點中分配,同時兼顧性能最優和容量安全
- 核心特色:以最合理的資源成本,穩定支撐量級&波動大的業務,實現容量/性能/成本/穩定性的平衡
Perf-Feedback 內置兩種調度傾向:當全局平均負載較低時,GTM傾向於性能,將客户端流量調度至其訪問最快的資源節點當全局平均負載較高時,GTM傾向於穩定,確保每個節點的水位不高於全局平均負載水位如下圖所示,相比於 Perf-Cap,GTM 的調度輸入中引入了實時負載的數據。
Perf 自定義路由
適用於用户需要對 Perf 智能路由流量進行微調,以滿足特定場景的業務
- 核心原理:自定義路由規則的優先級高於 Perf 智能路由生成的路由規則優先級
- 核心特色:在智能化的同時也為業務方提供更多的靈活性,滿足特定業務需求
2.3 流量可視化
Perf-智能調度智慧透明,配備全面工具集,助力業務深入分析流量動態,通過 Perf-智能調度,可以觀測到實時流量拓撲、客户端請求趨勢、客户端地區分佈等流量動態。
實時流量拓撲
客户端請求趨勢
客户端地區分佈
3.字節跳動智能流量調度內部實踐
在字節跳動,越來越多的業務正通過邊緣計算將服務去中心化,從而實現更優的用户體驗和更低的基建成本。面對邊緣節點分佈廣泛、數量龐大、能力參差不齊的挑戰,TrafficRoute GTM 的 Perf 智能路由展現出天然優勢。
通過 Perf -智能路由的三種調度模式,幫助字節跳動內部多個業務落地了邊緣下沉,在成本、性能和穩定性上取得較大收益。
3.1 RTC 實時音頻,訪問時延降低 10%+
字節跳動某款 APP 的 RTC 實時音頻服務,在全國三個城市部署了 9 個接入節點。通過採用 TrafficRoute GTM 的 Perf 性能優先模式,確保全國的企業用户在不同工作場所均能體驗到極低延遲的音頻接入服務,保障了通信的高效與流暢。
GTM 感知中心實時感知全國網絡質量,智能地為不同地區客户端動態制定調度規則,確保用户始終連接到最健康、速度最快的音頻接入點,以優化通信體驗。整個應用過程中,GTM 的 Perf 性能優先模式充分發揮了獨特功能,涵蓋了智能動態調度策略、顯著降低了接入成本以及顯著提升了應用性能,展現出其卓越的技術優勢。
採用 TrafficRoute GTM 的 Perf 性能優先模式,相比較 GEO 基礎路由,最終業務實現瞭如下收益:
- 成本收益:智能調度代替了人工維護,每月降低了 3 人天以上;
- 性能收益:訪問時延 avg 降低 10%+,p95 降低 25%;請求成功率 avg 提升 0.05%;
- 穩定性收益:業務實現了分鐘級全鏈路自動容災,最快做到 3 分鐘全國 95%+ 流量收斂。
3.2 千萬 QPS 業務,成本降低35%,性能提升20%
在邊緣計算浪潮的推動下,能否有效駕馭大規模邊緣算力,成為業務邊緣下沉成功的關鍵。TrafficRoute GTM 深度參與了一個超 1500萬 QPS 的業務邊緣下沉項目,通過使用Perf-Cap 容量優先模式,助力其在字節內部率先落地端-邊-雲一體化的架構,成為先行者。
通過將中心 Region 數據面服務下沉至全國 30+ 省份、50+ 邊緣節點,來實現提升用户訪問體驗(邊緣節點距離終端客户端更近)和降低帶寬&算力成本(邊緣資源成本約為中心的20%~60%)。GTM 的P erf-Cap 容量優先模式,根據業務的客户端請求分佈、全國網絡質量地圖,在滿足各邊緣節點容量約束的前提下,生成全局總時延最低的流量調度規則。
GTM 上實際配置如下圖:
此時,用户無需繁瑣的容量規劃、節點統籌、流量調度,只需在 console 上填入邊緣節點的元信息(IP 地址+容量),GTM 即刻生成智能、動態的調度,時刻保證最終客户的體驗最優。通過抖音客户端AB數據分析,該業務邊緣下沉帶來的整體收益如下:
其中,邊緣下沉 x GTM Perf-Cap模式,額外取得的收益如下:
3.3 302 服務,端上播放質量顯著提升字節跳動
302服務承擔了抖音、頭條、西瓜等 APP 點播&下載的重定向功能,其流量呈現明顯的波峯波谷特徵,日內 QPS 在 30-350萬範圍波動。為實現最優訪問性能和最低基建成本,要求 TrafficRoute GTM 將動態波動的流量在最小資源冗餘的火山引擎邊緣節點上合理調度,既要保證性能全局最優,又要保證全局水位健康。
GTM 上實際配置如下圖,該業務約 100+ 邊緣節點,每個節點容量冗餘 20%。
採用 Perf-Feedback 負載反饋模式,302 服務實現瞭如下收益:
- 100+ 邊緣節點的負載更加可控,資源利用率更加合理,節點負載跑超率從 20%降至0%;
- TCP 建聯失敗率下降明顯:晚高峯 19%->16.5%,午高峯 18%-> 14%;
- 客户端 7 層負面指標均下降:其中播放error 錯誤率、播放 play_break 中斷率降幅超50%。
END
Trafficroute GTM 通過 Perf -智能路由的三種調度模式,幫助字節跳動內部 RTC 實時音頻業務、千萬 QPS 業務、302 服務實現了在成本、性能和穩定性上的收益,進一步助力字節跳動內部業務經受超大規模流量考驗,確保始終為用户提供穩定服務。
最後,給大家預告番外篇,後續我們將聚焦更新的 GTM 調度功能,詳細闡述技術思路、關鍵技術和實踐經驗,感興趣的小夥伴記得持續關注~