前言--為什麼要寫AB實驗白皮書?
增長與優化是企業永恆的主題。面對未知的策略價值,數據驅動的AB實驗已經成為互聯網企業在策略驗證、產品迭代、算法優化、風險控制等方向必備的工具。越來越多的崗位,如數據科學家、算法工程師、產品經理以及運營人員等,要求候選人瞭解AB實驗相關知識。然而,許多從業者由於缺乏有效的學習渠道,對AB實驗的理解仍停留在初級階段,甚至存在一些誤解。我們希望通過系統性地分享和交流AB實驗的理論基礎、基本流程、核心要素及其應用優勢,能夠幫助更多相關人員深入瞭解實驗,提升實驗文化的普及度,最終輔助企業在更多領域做出精確數據驅動決策。
除了廣泛傳播實驗文化外,該白皮書在深度上也可給實驗研究人員,提供複雜業務制約下進行可信實驗設計與科學分析評估的參考經驗和啓發。從美團履約技術團隊、美團外賣業務的實踐來看,實驗者常常面臨多種複雜的實驗制約和難題,例如,在美團履約業務中,實驗往往需要應對小樣本、溢出效應(即實驗單元間互相干擾)以及避免引發公平性風險等多重約束,需設計科學複雜的實驗方案以克服相應挑戰。通過撰寫白皮書,我們系統性地總結和分享應對複雜實驗約束的研究經驗,進而能夠促進實驗技術的傳播與升級,推動實驗科學持續進步。
本白皮書以AB實驗為中心,涵蓋AB實驗概述與價值、實驗方法基礎原理與案例剖析以及配套SDK代碼分析等,內容豐富且易於理解和應用。適合從事AB實驗研究的數據科學家、系統開發人員,以及需要實驗驅動策略決策的業務和產研團隊,同時也適合對數據驅動增長和數據科學等領域感興趣的讀者。若本白皮書存在不當或者錯誤之處,歡迎大家批評指正,我們將不斷完善與豐富內容,跟大家一起理解AB實驗和數據科學,推動技術進步。
後續,我們將在美團技術團隊微信公眾號上陸續推出第3章節~第8章節的內容,敬請期待。如果大家發現問題,或者有一些建議,也歡迎在文末留言,跟我們進行交流。
白皮書總目錄
前言--為什麼要寫AB實驗白皮書?
----- 第一部分 AB實驗概述 -----
第1章 走進AB實驗
1.1 瞭解AB實驗
1.2 深入AB實驗--以到家可信實驗為例
----- 第二部分 基礎原理與案例剖析 -----
第2章 AB實驗基礎
2.1 實驗基礎原理概述
2.2 AB實驗統計學基礎
2.3 常用實驗術語
第3章 隨機對照實驗
3.1 經典隨機對照實驗
3.2 提高實驗功效的進階手段
3.3 進一步保證同質性的實驗方式
3.4 解決溢出效應的複雜隨機對照實驗
3.5 拓展與展望
第4章 隨機輪轉實驗
4.1 拋硬幣隨機輪轉
4.2 完全隨機輪轉
4.3 配對隨機輪轉
4.4 拓展與展望
第5章 準實驗
5.1 雙重差分法
5.2 拓展與展望
第6章 觀察性研究
6.1 合成控制法
6.2 匹配方法
6.3 Causal impact
6.4 拓展與展望
第7章 高階實驗工具
7.1 統合分析
7.2 多重比較
7.3 拓展與展望
----- 第三部分 SDK代碼應用 -----
第8章 開放式分析引擎
8.1 產品特性
8.2 系統架構
8.3 系統接入
8.4 線下分析實戰
總結與展望
致謝
第一章 ---- 走進AB實驗
1.1 瞭解AB實驗
工欲善其事,必先利其器。在這個數據驅動決策的時代,AB實驗已經成為洞察用户行為、優化產品體驗的不可或缺的工具。AB實驗,又稱為在線對照實驗(Online Controlled Experiment),其概念源自生物醫學中的“雙盲測試”,即將病人隨機分為兩組,在不知情的情況下分別給予安慰劑(或舊藥物)和新藥治療,經過一段時間實驗後再比較兩組病人是否有顯著差異,從而確定新藥的有效性。自2000年Google將A/B實驗應用於互聯網產品測試以來,這一方法已在包括美團在內的各大互聯網公司得到了廣泛應用。
假設美團履約側在可為某些(用户,商家)提供配送服務時,想驗證在App的C端產品上彈窗以及展示某標籤是否能促進用户下單意願。此時,AB實驗提供了理想的解決方案。如圖1-1所示,其做法為通過圈選一部分用户並隨機分配為實驗組和對照組(隨機分流可確保兩組在諸多特徵上無差異),實驗組用户施加新功能/新版本策略,而對照組用户繼續使用舊功能/舊版本策略。一段實驗週期後基於日誌系統和業務系統收集的用户指標數據進行分析,比較實驗策略與對照策略是否有顯著收益,並以此為依據判斷新策略是否應推廣到全部用户。
AB實驗之所以能迅速成為工業界數據驅動決策的黃金標準,主要歸功於其能定性驗證因果關係以及定量評估增長價值。某個策略的改變是否會導致產品指標的改變,本質上需要的是一種因果關係的判斷,即“策略迭代優化”的因是否會帶來“產品質量改變”的果。單憑經驗以及相關性分析難以做成正確的決策,Google和Microsoft相關統計表明,即使很有經驗的相關人士正確判斷產品策略的概率也只有1/3。依賴相關性同樣可能導致錯誤的決策,例如提供訂閲服務的微軟Office 365觀測到看到錯誤信息並遭遇崩潰的用户有較低的流失率,這是因為高使用率用户往往看到更多錯誤信息以及流失率更低。但這並不意味着Office 365 應該顯示更多的錯誤信息或者降低代碼質量使得頻繁崩潰。
另一個著名的相關性案例為國家的巧克力消耗量與獲得諾貝爾獎的數量相關性高達0.79,但這並不意味着通過提高巧克力消耗量可以提高諾貝爾獎數量。實際產品迭代過程中往往應透過相關性尋找真正的因果關係。而AB實驗作為目前已知的快速、低成本、科學驗證因果關係的最有效手段,其可以通過隨機化過程等可有效控制除干預策略外,實驗組、對照組間其他混雜變量與影響特徵是均衡的,最終的結果差異可歸因於完全由干預貢獻。同時藉助假設檢驗等統計理論,能夠科學、定性地驗證策略迭代是否會帶來業務的真實提升。因此,在產品迭代中通常採用AB實驗識別正確的因果關係,保障迭代優化朝着正確方向前進。
AB實驗同樣可通過精確量化策略收益、產品風險和成本,定量評估增長價值。例如,當某業務希望準確評估新補貼策略帶來的下單規模提升時,最理想的方案是面對同一撥用户,假設存在兩個完全相同的平行時空,平行時空一中所有用户體驗新補貼策略B,類似的平行時空二中所有用户體驗舊補貼策略A,通過直接對比2個平行空間的用户行為的平均表現(例如人均單量),則可觀測新補貼策略相比舊補貼策略的提升效果。然而現實世界中不存在兩個平行時空,針對同一用户,我們只能觀察到其接受策略A或策略B下的一種表現,在此約束下,AB實驗可為我們提供了理想平行時空的一個近似替代。
具體的仍如圖1-1所示,現實世界中通過隨機實驗手段可將用户隨機均勻的分為實驗組和對照組2個足夠相似羣體,並分別施加新策略以及舊策略。由於在隨機分配機制下理論上實驗組和對照組用户的平均表現可以分別代表2個平行時空下所有用户的平均表現(可參閲第2章實驗基礎原理),因此通過對比實驗組、對照組間差異可以有效估計策略迭代帶來的具體收益、風險與成本,幫助實驗者做出更為理性的決策。
1.2 深入AB實驗--以到家可信實驗為例
1.2.1 錯綜複雜的實驗陷阱與挑戰
以美團到家業務實驗為例,如圖1-2所示,實驗者可能會經常面臨各種各樣複雜的陷阱與挑戰,處理稍有不當則可能損失實驗的可信度,甚至帶來錯誤的實驗結論。
具體的,以下是到家幾個常見實驗難題的簡要介紹,這些問題也經常出現在其他業務實驗中,更多案例與解決方案可詳見後面章節。
案例一:小樣本和溢出效應是制約履約場景下進行可信實驗的兩大難題。一方面,履約配送場景下樣本量稀少與地域差異明顯的現狀,使得隨機對照實驗下難以保證分組的業務同質性以及很難有效地檢測出實驗提升效果。受自身業務形態和空間維度限制,部分配送策略的最小作用單元為區域/區域組(一個配送區域可以理解為某個地域空間)。因此在實驗設計上,我們必須考慮區域或者更粗顆粒維度的分流。然而大部分城市區域/區域組很少,僅幾十個左右。並且同城市各地域間的差異也往往比較顯著,這在數據上體現為區域間指標波動劇烈。嚴峻的小樣本與地域間差異顯著的問題,導致隨機分流下通常難以檢測到策略小的提升效果,並且與結果變量相關的特徵在實驗組、對照組的分佈差距可能較大,放大業務上實驗組對照組不同質問題的同時給實驗結果帶來質疑。
另一方面,溢出效應(Spillover effects)引發的實驗組、對照組間的不獨立性,也會導致一些履約實驗效果估計不夠精確,甚至帶來顯著的估計偏差。AB隨機實驗中關鍵的個體處理穩定性假設(SUTVA)假定實驗單元的結果不受到其他單元分組的影響,簡而言之,實驗單元間相對獨立,然而美團履約業務策略通常會涉及用户、商家和騎手等多方協同以及各方的相互依賴,特別是用户訂單和騎手存在多對一耦合關係,且騎手可以跨越多個區域甚至整個城市進行接單和配送,在這種場景下無論運單還是區域等粒度的實驗,實驗單元間都往往存在溢出、干擾,進而造成實驗估計不準確。關於小樣本與溢出效應更多案例與解決方案將在第3~5章重點介紹。
案例二:不可忽視的方差與P值計算陷阱,以及求和型統計量、ROI指標等高階評估方法訴求。AB實驗主要是通過在某個設定的抽樣機制下,觀察抽樣的樣本來推斷總體的提升效果,並通過顯著性檢驗輔助判斷實驗組、對照組之間差異是真實策略還是抽樣噪音帶來的。在該過程中通常需涉及大量統計學理論,包括方差、檢驗方式和P值計算等,稍有不慎容易掉入統計陷阱,難以得出可靠的實驗結論。例如當分流單元與分析單元不一致時,錯誤的方差計算方式容易低估實際方差,導致假陽性。如圖1-3左側所示,在真實策略沒有任何提升的情況下,分析單元細於分流單元時出現錯誤判別策略有效的概率接近50%。正確的做法應該是先聚合到分流單位,再應用Delta技術推導的正確方差計算公式,如圖1-3右側所示,在正確方差計算下如果真實策略沒有任何提升,P值近似服從均勻分佈,以及假陽性錯誤率基本控制在指定的顯著性水平5%以內。
許多場景同樣存在求和型統計量、ROI指標等高階評估方法訴求。例如假設策略可能影響實驗組和對照組間用户的活躍度(留存)。如果實驗組策略優於對照組,邊緣用户可能從對照組流失,而實驗組會吸引新用户。這種情況下,儘管實驗組的下單量提升,但由於轉入實驗組的是非活躍用户,其均值可能低於對照組均值。基於均值統計量的顯著性分析會拉低策略效果,甚至出現相反結論,不再適用,需引入求和型評估統計量。不同於非營銷場景下關注策略的絕對提升(實驗組觀測值-對照組觀測值)與相對提升(實驗組觀測值/對照組觀測值-1),營銷場景下有時關注ROI:(實驗組觀測值-對照組觀測值) / (實驗組成本-對照組成本)。無論是求和型統計量還是ROI統計量,都需要重新推導和適配正確的方差計算和P值計算公式,以確保實驗結論的準確性。更多詳情可參閲第3章。
案例三:受限於公平性風險等與產品形態無法採用傳統AB實驗,需引入準實驗或者觀察性研究工具評估。當運營策略或產品升級涉及實驗對象公平性等風險,或者產品分流與干預不受實驗者控制時,通常需要在整城範圍內施加策略,並採用觀察性研究進行評估。例如,在某個城市推廣線下廣告策略時,由於無法控制部分用户看到廣告的同時部分用户看不到,無法進行用户隨機AB實驗。
同樣的,即使可在實驗城市內干預分組,但受限於產品形態、運營管理難度甚至溢出效應,部分實驗也只能運行準實驗。例如考慮在保障整體覆蓋範圍不變的情況下,對所有不重疊的區域進行邊界優化(新配送區域邊界劃分規則)甚至合併。此時顯然不能考慮按區域隨機分流,因為2個相鄰的區域,在保持覆蓋範圍(並集)不變且不重疊約束下,優化A區域邊界必然會導致B邊界跟隨變化,從產品形態上無法實現A區域邊界變更但B區域邊界維持不變。此時一種退而求其次的做法可以考慮將整個城市拆分為2個半城,在實驗半城內部調整優化區域邊界,對照半城維持不變,然後再利用DID等準實驗手段評估新區域劃分規則帶來的提升效果。關於準實驗與觀察性研究基礎原理與更多應用案例可參閲第5~6章。
1.2.2 零門檻運行可信實驗範式與流程
為了讓任何人都能擺脱AB測試重重困境,零門檻自主運行科學可信的實驗,美團履約技術團隊制定了一套數據科學家、數倉開發、系統開發多方協調保障的實驗接入與運營機制,通過科學的實驗方案、規範的實驗流程和正確的指標數據保證實驗可信度。對於新業務場景實驗,尤其是重點或複雜實驗,數據科學團隊全程參與,前置深入實驗場景,明確實驗痛點,攻克置信難題,制定匹配的實驗方案,並在實驗平台配置實驗模板。數倉開發為對應場景訂閲和維護關注的實驗指標數據集,保障指標定義規範與準確。與此同時數據科學家與系統研發人員共同規範化、模塊化平台實驗流程,允許對應算法場景後續可零門檻自主運行可信實驗。
規範的實驗流程和匹配的平台能力幫助實驗者快速驗證策略併科學決策。整個實驗流程實驗者只需選擇實驗場景模板新建實驗設計、配置實驗變體參數並查看實驗報告。在實驗設計環節,實驗者可自助選擇評估指標以及圈選流量,並可通過MDE分析與樣本量預估功能輔助判斷圈流樣本量是否足夠以及選擇實驗週期。完成實驗設計後直接輸出分流表達式,幫助用户輕鬆完成分流配置,同時可查看同質性、MDE(實驗可有效檢測出的提升效果)等關鍵信息。實驗者可直接基於實驗設計快速創建、管理實驗,實驗結束後自動輸出顯著性、趨勢圖等實驗報告,用户無需再擔心包括異常值陷阱、方差計算陷阱、P值計算陷阱和多重比較陷阱在內的各種統計陷阱對實驗結論的影響。同時平台還提供實驗監控與診斷結果衡量實驗有效性,以及實驗探究功能支持實驗者按維度、日期、指標等下鑽與查看實驗結果,輔助實驗者進行決策。
在上述實驗流程中,不難看出,即使沒有複雜的實驗背景與專家知識的實驗者也可零門檻自主運行可信實驗。這不僅歸功於數據科學家前置制定實驗模板,還得益於構建了體系化的實驗分析引擎,為用户提供標準化的流程和多樣化的方法,並幫助用户避開各類實驗陷阱。分析引擎作為一箇中心方法庫,整合了數科同學的所有優秀的實踐,並涵蓋學業界絕大部分實驗方法。同時分析引擎也旨在促進知識共享,它可以像“積木”一樣接入各種實驗平台,服務不同角色的用户。對於具有專家級統計理解的用户,可以提供原子化工具組件,幫助他們在業務場景約束下綜合權衡偏差和方差,制定適合其業務場景的實驗方案。對於普通用户,可以使用實驗平台,輕鬆避開各類實驗陷阱並輸出實驗報告,零門檻運行可信實驗。
1.2.3 實驗方法選擇指南
考慮到各類評估方法的複雜度和準確性上各有千秋,我們基於實驗理論與實踐經驗,沉澱了一套大體的實驗方法選擇流程圖,如圖1-6所示,總體而言從可信度等級上優先選擇隨機實驗(包括隨機對照實驗和隨機輪轉實驗),其次是準實驗,最後是觀察性研究。
在上述大體流程下部分實驗場景同樣存在方法升級,下表簡要展示實驗方法庫及其適用場景,詳細方法內容將在本白皮書後續第3~7章節中重點展開與討論。同時大部分方法也已集成於履約SDK分析引擎,線上調用與線下分析詳情,大家可參閲白皮書的第8章節。
閲讀更多
| 關注「美團技術團隊」微信公眾號,在公眾號菜單欄對話框回覆【2024 年貨】、【2023 年貨】、【2023 年貨】、【2022 年貨】、【2021 年貨】、【2020 年貨】、【2019 年貨】、【2018 年貨】、【2017 年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。
| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明 "內容轉載自美團技術團隊"。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請發送郵件至 tech@meituan.com 申請授權。