簡介: 本文講述了微博機器學習平台和深度學習平台的業務功能和雲上實踐,剖析了阿里雲大數據在微博這兩大學習平台的架構建設上所起到的作用。
作者:新浪微博數據計算平台系統架構師 曹富強
本文講述了微博機器學習平台和深度學習平台的業務功能和雲上實踐,剖析了阿里雲大數據在微博這兩大學習平台的架構建設上所起到的作用。
微博介紹
微博是2008年上線的,中國頭部、流行的社交媒體平台,提供人們在線創作、分享和發現優質內容的服務,微博的大規模機器學習平台可支持千億級參數、百萬QPS調用。目前微博的日活是2.22億,月活是5.16億。
微博機器學習平台(WML)優勢
微博機器學習平台的特點是樣本規模大,百億級樣本,實時性比較高,是分鐘級,然後模型規模是百億級,模型實時性根據不同場景有小時級、分鐘級和秒級。作業的穩定性的話要求是三個9,平台業務多,場景豐富迭代快。
微博機器學習平台(WML)CTR模型
微博機器學習平台的CTR模型經過數字版本的迭代,從1.0的離線機器學習到3.0的離線和深度,到5.0的在線機器學習、離線機器學習和深度機器學習結合。再到目前我們是往在線深度學習方向發展。總體來説經過歷史迭代,目前支撐的參數規模達千億級,服務峯值達百萬QPS,模型更新是10分鐘量級。
微博機器學習平台(WML)架構
我們看一下微博機器學習平台的架構,微博機器學習平台為CTR、多媒體等各類機器學習和深度學習算法,提供從樣本處理、模型訓練、服務部署到模型預估的一站式服務。總體的話是基於在線計算集羣,離線計算集羣和高性能計算集羣。我們通過資源的WeiBox調度框架和WeiFlow工作流引擎,計算平台的話是WeiLearn框架集成的Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch,提供了諸多豐富的算法。基於這些算法,訓練的模型,我們入到我們WeiPS模型庫,然後通過WeiServing對外提供在線推理服務。
微博機器學習在阿里雲上實踐
我們的阿里雲上實踐使用了Flink、MaxCompute、Alink、PAI。基於這些服務提供了熱門微博、Feed流、綠洲推薦,使用MaxCompute實現在相同規模下萬億樣本百億特徵全量訓練,比Hadoop集羣提升10倍。支持從天級到分鐘級的實時熱門微博、Feed流業務推薦及搜索樣本實施訓練、上線,業務推薦效果提升10%。基於Flink搭建了實時計算平台,集成了作業提交端UI/WeiClient、作業管理、資源管理、日誌系統、監控報警系統等各鏈路,作業規模上千。整體來説阿里雲建設機器學習有幾大優勢:支持大規模處理、算法豐富、平台成熟運維方便、投入時間直接聚焦到業務。
微博深度學習平台(WDL)典型業務場景
接下來介紹微博深度學習相關的業務,目前的話在微博的關係流、綠洲、新浪視頻推薦、正文推薦流裏面都有深度學習的應用。
微博深度學習平台(WDL)架構
基於在線gpu的機器,我們通過K8s和Yarn管理,然後通過WeiArena和el-submit提交任務。我們的WeiLearn集成了TensorFlow、Pytorch引擎,然後集成了樣本庫讀取和輸出的模型庫。然後WeiServing加載了模型庫,對外提供兩路服務,一個是通過AI服務直接對外提供AI輸出能力,另外就是我們的計算服務WeiStorm,集成了數據流,調用WeiServing RPC服務框架,實時生成多媒體特徵,對外提供在線服務推理。
微博深度學習平台(WDL)多媒體特徵生成
微博機器學習深度平台多媒體特徵的生成,只有兩條鏈路,第一路是離線的訓練,離線訓練模型通過數據源的處理輸出到樣本庫,然後通過我們WeiServing分佈式訓練模型調用,輸出到模型庫,這一路的話是一鍵CICD、分佈式訓練、支持多種類的模型。另一路是在線推理,在線推理的話消費多媒體實時數據流,調用我們的WeiServingRPC框架,輸出多媒體特徵,然後應用到業務,這條鏈路的話,我們通過對賬系統、case追蹤、全鏈路監控去做服務保障,成功率是99.99%,延時是秒級延時。開發模式是通過UI化、配置化、一鍵部署。
微博深度學習平台(WDL)基本功能
微博深度學習平台產品功能的話,一個是樣本庫,然後分佈式訓練,模型庫,在線推理服務和計算服務。樣本庫的話主要是包含樣本數據管理和樣本分佈式存儲,對在各節點上零散的樣本進行統一管理;分佈式訓練的話,內置常用深度學習算法並持續新增成熟的算法,規範樣本讀取,訓練gpu集羣的靈活調度和訓練模型的統一存儲;模型庫的話提供分佈式系統和本地兩種存儲方式,為在線推理服務提供模型;在線推理服務,支持Python和C++模型的一鍵部署,實現模型推理的服務化以及監控、告警等。可封裝為HTTP服務,對外直接提供AI的能力,實現AI能力的直接輸出;計算服務,基於內部的多媒體分發系統,接入多媒體數據流,調用在線推理服務,實時生成多媒體特徵。
微博深度學習平台(WDL)業務實踐
微博深度學習平台業務實踐,早期的話基於單機訓練處理大規模數據時訓練週期長,迭代慢,影響業務效果。 於是我們提供了多媒體深度學習服務方案,微博深度學習平台就應運而生,實現了樣本存儲、離線訓練、在線推理及模型存儲一體化功能。最終產生的效果和業務價值是:分佈式訓練極大縮短了訓練時間,為快速業務迭代提供良好基礎;一體化服務讓我們只需要專注於模型算法優化,提高業務效率,整體上為業務賦能和業務承建產生了巨大的推動力。
原文鏈接
本文為阿里雲原創內容,未經允許不得轉載。