Google、Bing、抖音、淘寶等巨頭如何做AB實驗的?
2000年,Google首次將傳統(tǒng)AB實驗引入到互聯(lián)網(wǎng)產(chǎn)品改進評估中,用于測試搜索結(jié)果頁展示多少搜索結(jié)果更合適。雖然這次AB實驗因為搜索結(jié)果加載速度的問題失敗了,但是這次AB實驗是一個里程碑,標志著在線AB實驗的誕生。從那以后,AB實驗被廣泛應(yīng)用于互聯(lián)網(wǎng)公司的優(yōu)化迭代。
據(jù)統(tǒng)計,Airbnb(市值1000億美元)每周有超過1000個實驗,F(xiàn)acebook(市值10000億美元)每天在線的實驗超過10000個。一個公司在線AB實驗的數(shù)量也在一定程度上反映了這個公司的規(guī)模、數(shù)據(jù)驅(qū)動文化的成熟度。本文將介紹AB實驗的典型應(yīng)用場景和一些經(jīng)典的案例,通過案例幫助讀者更加直觀地認識和理解AB實驗原理和價值。
01 AB實驗應(yīng)用場景
AB實驗被運用到了產(chǎn)品優(yōu)化的方方面面。在眾多應(yīng)用場景中,有三類非常典型。
1. 推薦類場景
信息流推薦、電商購物推薦、音樂推薦、視頻推薦等都屬于推薦類場景。推薦系統(tǒng)中的推薦算法,特別是現(xiàn)在廣泛應(yīng)用的深度學(xué)習(xí)等模型,本身就具有很強的黑盒屬性。優(yōu)化一個特征、一個模型、一路算法、一個參數(shù)之后,用戶體驗如何,是不是向著期望的目標方向移動,都是無法簡單通過經(jīng)驗來判斷的,通過AB實驗才能知道。如果不使用AB實驗進行評估,很難有其他手段驗證新推薦策略的效果。這個場景中,AB實驗和推薦系統(tǒng)是相生相伴的,有推薦系統(tǒng)就必須有AB實驗。
2. 運營類場景
運營活動包括場景的拉新促活(吸引新用戶,活躍老用戶),各種運營活動中投放的紅包、優(yōu)惠券、短信等。一般這類活動都能帶來立竿見影的用戶增長或者成交量增長。更為重要的是,從長期來評估,這些投入是否帶來了總的正向RIO。在實際中,很多活動帶來的增量是短暫的,用戶的長期留存效果往往低于自然流量的長期留存。如果沒有AB實驗的量化,很難說清楚這些活動真實的長期收益。
3. UI設(shè)計和交互類場景
在UI設(shè)計和交互類場景中,由于按鈕、顏色、款式、字體等有太多的選擇,而每個人的偏好不同,以至于在產(chǎn)品內(nèi)部很難達成一致,更不用說面對不同的使用人群。究竟哪個方案是最優(yōu)的,也只有通過實驗的方式進行量化才最具說服力。
在沒有使用AB實驗之前,UI設(shè)計師經(jīng)常面對各種挑戰(zhàn),有人說字體太大,有人說字體太小,往往誰都很難拿出有說服力的證據(jù)。而且有的時候由于變化過于細微,肉眼都難以分辨,比如Bing的標題色彩的UI實驗。采用AB實驗以后,大家就不會因為自己的審美而爭執(zhí)不下了,簡單地把AB實驗的數(shù)據(jù)結(jié)果呈現(xiàn)出來就可以做出決策。
這三類場景非常有代表性,分別代表了算法優(yōu)化黑盒屬性、長短期綜合收益ROI、感性決策眾口難調(diào)這3個在產(chǎn)品優(yōu)化過程中的典型問題。當(dāng)然,AB實驗適用的場景并不局限在這三類,滿足實驗基本條件的產(chǎn)品問題基本都可以采用AB實驗來解決。表1中總結(jié)了常見的實驗類型,以及實施AB實驗的建議程度。注意,這只是常規(guī)情況下,結(jié)合實際應(yīng)用中考慮各種實際情況的一個相對建議程度,僅供參考。

表1 不同實驗類型的AB實驗建議程度
從產(chǎn)品研發(fā)流程來看,基于AB實驗的研發(fā)流程相比傳統(tǒng)產(chǎn)品的研發(fā)流程,其優(yōu)勢是全方位的,如表2所示。

表2 基于AB實驗的產(chǎn)品研發(fā)流程的優(yōu)勢
02 AB實驗應(yīng)用案例
本節(jié)通過幾個案例來介紹AB實驗在實際應(yīng)用中發(fā)揮的作用和價值。
1. Bing案例
2012年,Bing的一個員工建議改進廣告顯示方式,將標題下的第一行文字合并到標題行,形成一個長標題行。由于這個方案開始并不被看好,因此優(yōu)先級較低,被擱置了6個月,之后因其代碼難度較低而被實施,并投放給真實用戶進行評估:隨機向一部分用戶展示新的標題布局,將用戶與網(wǎng)站的互動記錄下來,包括廣告點擊和由此產(chǎn)生的收入。
實驗開始幾小時后,一個“收入過高”的警報被觸發(fā),表示新標題布局的廣告產(chǎn)生了太多的收益。這樣“好得難以置信”的警報非常有用,因為這通常表明出現(xiàn)嚴重的漏洞,比如收入情況被記錄了兩次,或網(wǎng)頁只有一個廣告顯示,而其余部分被破壞了。然而,對于這個實驗來說,其增加的收入是有效的,Bing的廣告收入增長了驚人的12%。在沒有損害關(guān)鍵用戶體驗指標的情況下,當(dāng)時僅在美國就轉(zhuǎn)化為每年超過1億美元的收入增長。這個實驗因為效果太好而令人難以置信,所以在很長一段時間里被重復(fù)做了多次,結(jié)果都是大幅的收入提升。
這個實驗的價值不僅在于獲得了實驗本身的成功,同時展示了在線AB實驗的幾個關(guān)鍵問題。
- 直覺和經(jīng)驗通常難以評估一個創(chuàng)意的價值。一個可以創(chuàng)造超過1億美元的簡單改變,卻被推遲了半年。
- 微小改變也可能帶來巨大影響。對于一個程序員來說,幾天的工作就能帶來1億美元的ROI是極其罕見的。
- 極少有能夠帶來巨大效果的實驗。Bing每年有超過一萬個實驗,像這樣通過簡單改變帶來巨額收益的情況,近年來僅此一次。
- 友好、強大、易得的實驗工具是低成本實驗的基礎(chǔ)。Bing的工程師可以訪問微軟的實驗系統(tǒng)EXP,這使得科學(xué)評估變得很容易。
- 整體評估標準十分清晰。在這個實驗中,營收就是OEC的關(guān)鍵點。只關(guān)注營收是不夠的,有可能導(dǎo)致網(wǎng)站上廣告橫飛,這無疑會影響用戶體驗。Bing使用OEC來衡量收益和用戶體驗指標,包括每個用戶的會話次數(shù)(用戶流失還是用戶黏性增加)和其他幾個組成部分。關(guān)鍵在于,營收大幅增長的同時,用戶體驗指標沒有明顯下降。
Bing的實驗相關(guān)團隊由數(shù)百人組成,負責(zé)每年將單個OEC指標提高2%。這2%是每年做的所有實驗效果的總和。大多數(shù)改進都是逐個實驗進行的,而且大多數(shù)改進程度輕微,甚至有些迭代的版本的效果是負的。
對于產(chǎn)品來說,重要的不僅是業(yè)務(wù)指標,還有產(chǎn)品性能。2012年,Bing的一名工程師改變了JavaScript的生成方式,大大縮短了發(fā)送給客戶端的HTML代碼的長度,從而提高了性能,AB實驗也顯示了驚人的指標改進效果。Bing做了一個跟蹤實驗以評估對服務(wù)器性能的影響,結(jié)果表明,性能改進還顯著改善了關(guān)鍵用戶指標,比如服務(wù)器加載服務(wù)的時間減少了10ms,此項性能改進帶來的收入提升的部分就足以承擔(dān)工程師全年的成本。
2015年,隨著Bing搜索性能的提高,當(dāng)服務(wù)器在不到一秒的時間內(nèi)返回第95個百分位數(shù)的結(jié)果(即95%的查詢結(jié)果)時,有人質(zhì)疑性能提高是否還有價值。Bing的團隊進行了后續(xù)研究,關(guān)鍵用戶指標仍有顯著提高。雖然對收益的相對影響有所降低,但Bing的收益在這段時間里得到大幅提升,每1ms的性能提升都比過去更有價值,每4ms的改進所帶來的收入可以支付一位工程師一年的工資。多個公司都進行了性能實驗,結(jié)果都表明性能提升非常關(guān)鍵。在亞馬遜,100ms的減速實驗使銷售額下降了1%。Bing和Google的發(fā)言人在2009年聯(lián)合發(fā)表的一篇演講揭示了性能對關(guān)鍵指標的顯著影響,這些關(guān)鍵指標包括不同的查詢、收益、點擊、滿意度和點擊時間。
減少惡意插件也能提升產(chǎn)品體驗。雖然廣告是一項利潤豐厚的業(yè)務(wù),但如果用戶安裝的免費軟件包含惡意插件,這些惡意插件就會污染網(wǎng)頁上的廣告。使用惡意插件的用戶不僅頁面上被添加了多個廣告,而且通常是低質(zhì)量、不相關(guān)的廣告,產(chǎn)生了糟糕的用戶體驗。微軟對380萬潛在受影響的用戶進行了AB實驗,結(jié)果顯示當(dāng)實驗組通過控制權(quán)限減少了惡意插件的使用后,實驗組用戶的所有關(guān)鍵指標都得到了改善,包括每個用戶的訪問量。此外,用戶搜索能更成功、更快捷地點擊有用的鏈接,年收入也提高了數(shù)百萬美元。
2. Google案例
Google在2011年啟動了改進廣告排名機制的實驗。開發(fā)工程師測試了改進后的模型,他們進行了數(shù)百項AB實驗,并且進行了多次迭代。有些實驗橫跨所有市場,有些用于特定市場,以便更深入地了解對廣告客戶的影響。功能的巨大改動,加上AB實驗的幫助,最終使得Google巧妙地將多個功能進行組合,提升了廣告用戶的用戶體驗。Google以更低的單個廣告費用獲得了更好的廣告效果。
2016年,Google對搜索頁面的鏈接顏色進行了測試。當(dāng)時許多用戶反映,當(dāng)自己輸入詞匯或短語時,大部分用戶會看到10條鏈接,鏈接名為藍色,網(wǎng)址為綠色,有一部分用戶看到的鏈接名是黑色。這已經(jīng)不是Google第一次對鏈接顏色做AB實驗了,重視搜索結(jié)果頁面顏色的Google經(jīng)常面向數(shù)億網(wǎng)絡(luò)用戶實時測試多種顏色的效果。在更早的時候,Google就開始測試不同深淺的藍色,整整測試了41種藍色,最終篩選出了指標表現(xiàn)最好的,而選用這種藍色要比其他藍色每年多為Google帶來兩億美元的收入。
3. 奧巴馬競選案例
2012年,奧巴馬數(shù)字團隊對其競選籌款策略進行了全方位的優(yōu)化,從網(wǎng)頁到電子郵件,無一例外。在20個月的時間里,團隊進行了約500個實驗,最終將捐贈轉(zhuǎn)換率增加49%、注冊轉(zhuǎn)換率增加161%。他們曾策劃過一次推廣活動,為支持者贏得與總統(tǒng)共進晚餐的機會。在在線表單的設(shè)計方案上,研究小組實驗了一種流線型文本格式的表單和一種帶有總統(tǒng)圖像的表單。AB實驗結(jié)果顯示,后者讓參加抽獎的捐款人數(shù)增加了6.9%。
4. 亞馬遜案例
2004年,亞馬遜在主頁上發(fā)布了一個信用卡優(yōu)惠活動。這項業(yè)務(wù)雖然單次點擊收入很高,但點擊率很低。該團隊進行了一個AB實驗,將這項優(yōu)惠報價移動到用戶添加商品后看到的購物車頁面,頁面上顯示了簡單的數(shù)學(xué)計算,突出顯示用戶如果使用優(yōu)惠將節(jié)省多少費用。因為向購物車添加商品的用戶有明確的購買意圖,所以該報價顯示在了正確的時間點。AB實驗表明,這個簡單的改變使亞馬遜的年利潤增加了數(shù)千萬美元。亞馬遜的Greg Linden創(chuàng)造了一個基于用戶購物車中的商品展示個性化推薦的模型。當(dāng)用戶添加某個商品時,系統(tǒng)會出現(xiàn)類似商品的推薦。Linden覺得測試模型看起來很有潛力,而一位營銷高級副總裁堅決反對,聲稱它會分散人們的注意力,讓他們不愿意下單支付。Linden因此被禁止繼續(xù)研究這個問題。盡管如此,他還是進行了一項AB實驗,結(jié)果是這一功能以巨大的優(yōu)勢勝出,最終購物車推薦功能上線,目前國內(nèi)的主流電商平臺都復(fù)用了這一功能。
5. 抖音案例
抖音是字節(jié)跳動公司旗下一款創(chuàng)意短視頻社交軟件。字節(jié)跳動非常重視AB實驗,其實驗平臺每天新增約1500個實驗,服務(wù)400多項業(yè)務(wù),目前累計做了70萬次實驗。從產(chǎn)品命名到交互設(shè)計,從改變字體、彈窗效果、界面大小,到推薦算法、廣告優(yōu)化、用戶增長,抖音把AB實驗應(yīng)用到了每一個業(yè)務(wù)和每一項決策中。
外界很關(guān)心“抖音”名字的由來,這其實就是AB實驗的結(jié)果。當(dāng)年字節(jié)跳動做短視頻產(chǎn)品時,有很多候選名字,字節(jié)跳動將產(chǎn)品原型起成不同的名字、使用不同的Logo,在應(yīng)用商店做AB實驗,在預(yù)算、位置等條件保持一致的情況下,測算用戶對產(chǎn)品名字的關(guān)注度、下載轉(zhuǎn)化率等指標表現(xiàn)。AB實驗幫助字節(jié)得到了名字的排名,當(dāng)時“抖音”排到了第一。后來結(jié)合其更符合長期認知、更能體現(xiàn)Logo形態(tài)的特點,“抖音”之名就此確定。充分地進行AB實驗,是一個能夠在很大程度上補充信息的過程,能夠消除很多偏見,反映客觀的事實。
進入抖音App時,可以看到3個視頻推薦流,一個是基于位置的“同城”標簽欄,一個是基于關(guān)注關(guān)系的“關(guān)注”標簽欄,另一個是基于興趣推薦的“推薦”標簽欄。把哪個標簽欄作為用戶進入時的默認內(nèi)容,用戶體驗更好,產(chǎn)品的核心指標表現(xiàn)更好呢?通過AB實驗的方式,對照組用戶默認進入“關(guān)注”、實驗組1的用戶默認進入“同城”、實驗組2的用戶默認進入“推薦”,最后對比各組的實驗數(shù)據(jù),選出用戶在哪個組的指標表現(xiàn)更好。
通過實驗結(jié)果發(fā)現(xiàn),有一些用戶喜歡默認關(guān)注,有一些用戶喜歡默認推薦,有一些用戶喜歡同城推薦,如何才能達到最優(yōu)效果呢?這個問題也可以通過AB實驗的方式進行驗證。實驗可以這樣設(shè)計,首先根據(jù)用戶的特征以及歷史偏好,分別計算出進入“關(guān)注”和“推薦”這兩個標簽欄的權(quán)重值,比如有的用戶的關(guān)注量比較大,關(guān)注的內(nèi)容也比較豐富,歷史數(shù)據(jù)表明他們也更喜歡觀看自己關(guān)注過的內(nèi)容,這個情況下,“關(guān)注”標簽欄就會獲得較高的權(quán)重,成為默認的標簽欄。如果用戶關(guān)注的對象比較少,更愿意通過平臺推薦發(fā)現(xiàn)一些新鮮的事物,這種情況下,“推薦”標簽欄就會獲得較高的權(quán)重。實驗可以設(shè)計為如下幾組。
- 實驗組1:默認進入“推薦”標簽欄。
- 實驗組2:默認進入“同城”標簽欄。
- 實驗組3:根據(jù)用戶各個標簽欄的權(quán)重決定進入策略。
- 對照組:默認進入“關(guān)注”標簽欄。
6. 淘寶案例
電商網(wǎng)站淘寶網(wǎng)每天也在進行著各種各樣的實驗,一般情況下,我們都感知不到正在被實驗。就像鏈接
https://detail.tmall.com/item.htm?spm=a230r.1.14.14.498e4a519c23Vi&id=610851809895&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=2一樣,字段abbucket是分配給實驗組用戶的,abbucket=2是分配給對照組的。
移動互聯(lián)網(wǎng)時代,每天我們都使用著各種各樣的網(wǎng)絡(luò)軟件產(chǎn)品,進入產(chǎn)品各種各樣的實驗中。其實每一位產(chǎn)品用戶每天都在幫所使用的產(chǎn)品做著AB實驗,只不過用戶在一項實驗中只會獲得一個特征,無法同時獲得其對照的特征,而且用戶被分到什么組是完全隨機的,用戶對實驗是無感知的。這種隨機性、無感知性也在一定程度上保證了AB實驗的客觀性和可信度。
?




























