-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
A/B測試:創新始于試驗 版權信息
- ISBN:9787111617761
- 條形碼:9787111617761 ; 978-7-111-61776-1
- 裝幀:精裝本
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
A/B測試:創新始于試驗 本書特色
適讀人群 :0-2年的互聯網從業者,主要是數字營銷人員、增長黑客、產品經理、互聯網運營人員,在線業務人員
本書出版目的是普及A/B測試基礎理念與實踐理論,希望通過傳遞硅谷科技創新理念,幫助國內優秀企業快速掌握試驗創新基礎技巧,適合初學者,如需了解更為專業的技術點可咨詢作者。
無論是數據驅動、精細化運營還是增長黑客,這些都并非真正推動業務的自驅動力,真正具有普適價值、能夠賦能每個組織、每個人的思維與技術是——試驗,是——A/B測試。這不僅是一次次的技術探索,還是由決策探索、運營探索、產品探索、營銷探索、設計探索構成的創新增長巨輪。 前谷歌廣告業務的設計、開發和優化參與者、耶魯大學計算機科學畢業、“中國創新創業大賽”與“千人計劃創業大賽”雙料冠軍獲得者——王曄博士,首次深入淺出地講解A/B測試的理論和實踐,特別介紹試驗和新興熱點相結合的展望。李豐、宋星、曲卉、范冰、蔣濤等17位公司高管、KOL推薦!
A/B測試:創新始于試驗 內容簡介
我們如今看到的各種互聯網產品的改版以及創新,其背后都離不開許多上市之前的試驗工作,其中被互聯網、移動互聯網行業廣泛應用的試驗方法是A/B測試。A/B測試的本質是試驗,作為一種新興的網頁優化方法,通過對比試驗增加轉化率和注冊率,帶來產品和運營的創新,以實現各項指標的增長,如今它更是增長黑客所**的核心思維方式和工作方法。在流量日漸昂貴、精細化運營的大環境下,互聯網產品、運營和市場營銷人員需要具有A/B測試思維,以測試結果為依據做決策,優化頁面,提高轉化率,迭代產品。
本書作者因在谷歌總部工作時發現了A/B測試的巨大作用而回國創業,并將自己對試驗的理解和多年的經驗進行梳理,在書中介紹了試驗的本質、A/B測試的概念和價值、A/B測試的方法論和實戰步驟,以及電商、金融、教育、旅游、快消品、UGC、PGC、媒體網站、SaaS等行業的應用案例,著陸頁、App、網站、服務器端和推薦算法等不同場景的優化案例,還有針對決策者、產品經理、互聯網運營、市場營銷和工程師的測試案例。
A/B測試:創新始于試驗 目錄
贊 譽
前 言 試驗不息 創新不止
第 1章 數據驅動是試驗本質 // 1
1.1 生活處處有試驗 // 1
1.1.1 “鳥”生浮沉啟示錄:達爾文雀的自然進化試驗 // 1
1.1.2 林德試驗:現代醫學離不開 A/B 測試 // 6
1.1.3 潔面霜賣點效應:現代廣告史就是試驗發展史 // 9
1.2 數據分析與試驗 // 11
1.2.1 數據不只是數字堆疊 // 12
1.2.2 后驗數據分析的局限:數據的“漂亮”與“丑陋”// 13
1.2.3 試驗:數據驅動業務增長的唯一力量 // 15
1.3 試驗的思維 // 17
1.3.1 快速試錯的互聯網思維 // 17
1.3.2 試驗驅動創新,創業依賴試驗 // 19
1.3.3 依賴試驗的增長黑客 // 21
1.4 試驗驅動業務增長 // 23
1.4.1 試驗讓低成本探索成為可能 // 23
1.4.2 試驗驅動增長無處不在 // 25
1.4.3 試驗的頻率決定發展的速度 // 26
1.4.4 新時代,試驗文化正當時 // 28
第 2章 A/B測試是成功的試驗方法 // 31
2.1 互聯網時代的 A/B測試 // 31
2.1.1 谷歌引領的 A/B測試潮流 // 32
2.1.2 微軟、亞馬遜、臉書的經驗 // 33
2.1.3 新生代 Airbnb的融會貫通 // 36
2.1.4 A/B測試是優秀企業的標配 // 41
2.2 深入解析 A/B測試 // 42
2.2.1 A/B測試的定義 // 42
2.2.2 A/B測試的特性 // 43
2.2.3 A/B 測試的試驗類型 // 45
2.2.4 “偽”A/B測試 // 46
2.2.5 A/B 測試的統計學原理 // 51
第 3章 A/B測試的作戰計劃 // 63
3.1 試驗的戰略制定 // 63
3.1.1 明確戰略目標 // 63
3.1.2 制定戰略路線圖 // 64
3.1.3 管理試驗項目 // 68
3.1.4 搭建試驗的基礎設施 // 70
3.2 試驗的戰術執行 // 72
3.2.1 探索、驗證閉環:試驗驅動業務優化的流程 // 73
3.2.2 試驗方案設計 // 78
3.2.3 試驗的優先級排序 // 82
3.2.4 高頻試驗管理 // 85
3.3 快速上手一個試驗 // 87
3.3.1 收集數據,發現問題 // 88
3.3.2 建立試驗目標 // 90
3.3.3 提出試驗假設 // 91
3.3.4 運行試驗,驗證假設 // 93
3.3.5 分析試驗數據,做出決策 // 94
3.3.6 積跬步至千里,持續優化是關鍵 // 95
3.4 實戰:從零開始一次 A/B測試 // 96
第 4章 A/B測試的完整解決方案 // 110
4.1 行業: A/B測試在各行業的應用 // 110
4.1.1 電商經典案例 // 110
4.1.2 金融經典案例 // 113
4.1.3 教育經典案例 // 115
4.1.4 旅游經典案例 // 117
4.1.5 消費品牌經典案例 // 120
4.1.6 其他行業(UGC、PGC、媒體網站、SaaS)// 124
4.2 場景: A/B 測試在各種業務場景中的應用 // 132
4.2.1 著陸頁優化 // 133
4.2.2 App優化 // 139
4.2.3 網站體驗優化 // 145
4.2.4 技術優化 // 148
4.2.5 算法優化 // 151
4.2.6 基于 A/B測試的高效科學運營系統 // 154
4.3 人群: A/B測試是創新人才的**技能 // 156
4.3.1 決策 // 157
4.3.2 產品 // 160
4.3.3 運營 // 166
4.3.4 市場 // 172
4.3.5 技術 // 174
第 5章 試驗星火,終會燎原 // 178
5.1 人工智能 // 179
5.2 新零售 // 182
5.3 AR、VR、新硬件 // 184
5.4 區塊鏈 // 186
5.5 智慧城市 // 187
附 錄 // 191
附錄 A AARRR模型的介紹 // 191
附錄 B A/B測試術語表 // 194
附錄 C A/B測試需求分析模板 // 202
附錄 D 試驗檔案表格 // 203
附錄 E 快速上手一個試驗模板 // 204
掃封面上作者簡介處的二維碼,可免費獲取書中所有模板。
A/B測試:創新始于試驗 節選
第 2章 A/B測試是成功的試驗方法
2.1 互聯網時代的 A/B測試
我們在前文討論了驅動創新的試驗精神和試驗思維,特別是試驗實踐在互聯網行業獲得了巨大的成功,帶來了巨大的商業價值。
在絕大多數傳統商業模式里,產品的生產者和用戶之間有層層隔閡。業務上的試驗只能更多聚焦在市場營銷和銷售渠道,而針對產品策略的試錯往往要經過深思熟慮,節奏緩慢。
互聯網行業幾乎完全消除了產品與用戶之間的隔閡,極大地方便了互聯網企業針對*終用戶做大量深度的試驗。這是試驗驅動創新在互聯網行業大獲成功的關鍵因素。
通過多年的探索,我們已經找到了成功的試驗落地形式。
如前文所述, MVP(*小可行性產品)是互聯網創業項目*常見的試驗方法。在商業模式還沒有被完全驗證的早期階段,用*少的投入做出*小可用的產品,然后投放市場獲得用戶反饋。這種試驗可能會得到很多負面反饋,比如產品 Bug多、功能缺少、體驗差。但是 MVP試驗能幫助我們用*快的效率驗證市場需求,發掘商業機會,實現從 0到 1。
A/B測試是適合于成長期和成熟期的產品的試驗方法。互聯網業務場景實施 A/B測試的效率很高,價值很大,可以實現控制風險、高頻試錯、快速迭代、爆發增長。在業務實踐中, A/B測試結論精確,不容易出錯,可執行性很強。對于已經獲得投資的企業來說,A/B測試是必須采用的試驗方法。本書后續章節的重點都會圍繞 A/B測試展開。
針對大型項目定制化試驗方法是行業專家的核心競爭力。有很多實際項目由于受條件限制不適宜進行 A/B測試,但是又非常需要小成本試錯的能力,比如交通規劃、大型投資、建筑設計、工廠改造等。
下面我們介紹互聯網以及“ +互聯網”的行業巨頭們是如何開展 A/B測試來成功實踐“試驗驅動創新”的。
2.1.1 谷歌引領的 A/B測試潮流
2000年谷歌的工程師**次將 A/B測試用于互聯網業務的試驗:搜索結果首頁應該展示多少條搜索結果更合適?雖然這次 A/B測試因為搜索結果加載速度和試驗數據不準確而導致失敗了,但是它開啟了谷歌持之以恒的 A/B測試之路。從那以后, A/B測試被廣泛應用于互聯網公司的優化迭代,每年數萬個試驗被谷歌、亞馬遜、 eBay、百度、阿里巴巴等主流互聯網公司應用于線上 UI內容優化、算法優化、收益優化等方方面面。
事實上,谷歌的各條產品線每個月都有成百上千個不同的試驗版本在運行。搜索廣告產品的每一次新改動都要經過嚴格的在線 A/B測試來驗證效果,在保護用戶的搜索體驗的同時,提高谷歌的營業收入。A/B測試的試驗數據決定了大量的改動*終都不能上線(大量試驗都會得到營收負增長的試驗結果),這種科學的產品運營方式可以大幅度加速創新,改善用戶體驗,對互聯網企業事半功倍。*終通過試驗驗證而上線的改動確保了谷歌的營收規模每月可以增長約 2%。日積月累,谷歌僅僅通過數據化驅動的方式就能保證年化增長達到 20%。
隨著 A/B測試試驗系統的推出和不斷改進,谷歌幾乎所有的產品,包括新上線的產品,每一次更新都需要首先通過 A/B測試驗證。圖 2-1 是谷歌從 2007年建設好 A/B測試平臺之后的試驗數量增長情況圖,可見谷歌對于 A/B測試的重視。
圖 2-1 谷歌并發試驗數量的增長
2.1.2 微軟、亞馬遜、臉書的經驗
1. 微軟
微軟和亞馬遜這樣的“+互聯網”巨頭,還有臉書這樣的互聯網巨頭,都是在業務發展到成熟階段后開始大量進行 A/B測試的。
在這些有成熟組織架構的大公司里,一線產品經理和工程師在設計和開發產品時,會更多地通過微創新的形式來逐步優化產品。需要強調的是,對用戶行為的深度理解,很難僅僅依靠決策者的個人洞察力。有些經驗只有通過科學的 A/B測試的試驗數據才能獲得。
微軟必應的產品優化是個很好的案例。圖 2-2b與圖 2-2a相比,只將搜索結果內容的顏色做了一些小調整 [只需要改 CSS(層疊樣式表)里的幾行代碼 ],肉眼幾乎看不出區別,但是用戶點擊率大幅度提高,年化廣告收益增加了 1 000多萬美元。
圖 2-2 微軟必應(bing)的配色優化
2. 亞馬遜
小到顏色調整,大到產品邏輯,都可以通過 A/B測試來驅動產品的創新優化。
用亞馬遜在自己的電商網站上推廣信用卡廣告作為例子,如圖 2-3所示,這條廣告*初放在購物頁面里,幾乎無人問津,浪費了寶貴的廣告位資源。當業務經理嘗試把這條廣告放在結算頁面時,用戶就會發現這張信用卡的好處。A/B測試的試驗數據顯示將廣告改為放在結算頁后,帶來了年化上億美元的營收增長,業務經理以試驗結果證明了自己想法的價值。
圖2-3 亞馬遜的信用卡推廣試驗
事實上,沒有哪家公司比亞馬遜更了解 A/B測試的重要性。盡管亞馬遜已成為行業巨頭,但是亞馬遜并沒有陷入大公司的官僚主義。亞馬遜的首席執行官杰夫·貝佐斯(Jeff Bezos)在給股東的信中曾這樣說:“我認為我們特別擅長試錯。我相信我們有世界上*好的試驗創新環境(我們有很多試驗),失敗和創新是不可分割的雙胞胎。創新必須要嘗試,如果你事先知道它會起作用,那就不是一個試驗。大多數大型組織都能接受創新發明的想法,但不愿意承受其所帶來的失敗后果。”
此外他還談到了兩種決策:不可逆轉的決策(Ⅰ型決策)和可逆轉的決策(Ⅱ型決策)。他對于兩種決策的描述如下所示:
. Ⅰ型決策:“一些決定的后果是不可逆轉的或幾乎不可逆轉的單向門。這些決定必須經過仔細審慎和協商才能有條不紊、謹慎、緩慢地做出。如果你做了決策,不喜歡決策帶來的改變,你也不能回到以前。”
. Ⅱ型決策:“大多數決策是可變的、可逆的,它們是雙向的。如果你做出了一個次優的Ⅱ型決策,那么你不必忍受很長時間的后果。你可以重新決策,然后回滾。Ⅱ型決策可以并且應該由判斷力強的個人或小組迅速做出。”
隨著公司的發展,為Ⅰ型決策制定的流程被廣泛應用于包括Ⅱ型決策在內的各種選擇。用貝佐斯的話來說,無論做什么都像針對Ⅰ型決策這般謹慎,是一種低效和不合時宜的風險厭惡,這導致了發明創新的減少。但如果不加選擇地應用Ⅱ型決策,他認為大多數公司在它們長大之前就倒下了。
A/B測試是使組織專注于使用Ⅱ型決策,做出大多數選擇的理想方法。他說:“從傳統意義上來說, A/B測試是關于至少兩個版本的產品: A版本,通常是原始或控制版本,還有 B版本,你認為可能會是更好的版本”。因此,當 A/B測試應用于Ⅱ型決策時,貝佐斯建議通過簡單地關閉B版本并返回到 A版本,輕松實現回滾。“如果在測試方向或體驗方面遇到很大的麻煩,無法在不影響測試的情況下回滾測試,你可能正在處理Ⅰ型決策。”
亞馬遜稱自己為“ A/B測試公司”,A/B測試的一個*大好處是可以延遲決策,當創新的想法被實現后,可以根據真實試驗對比數據,衡量該創新的想法是否有效。
3. 臉書
臉書是互聯網時代成長起來的巨頭。臉書在移動 App的產品質量部分和市場占有率部分都遙遙領先,臉書作為單一產品更加依賴其強大的 A/B測試試驗平臺。
臉書 App在每次上線新版本的時候都會將未來 6個月甚至更長時間內想要測試的新功能都(隱藏地)集成進代碼。臉書將這些大膽創新的功能逐個通過 A/B測試試驗的方式檢驗驗證,如果某個功能有問題,或者用戶反饋不好,在未來的代碼迭代中就會被修改或放棄;只有效果好的改動才會被推廣給全球用戶,并且在未來的代碼迭代中被保留下來。
在大量進行小流量 A/B測試的過程中,絕大多數的臉書用戶(沒有被選中試驗那些“效果不好的測試功能”的用戶)的體驗是:臉書從來沒有 Bug!一個擁有數十億用戶的、不斷更新迭代的產品,從來沒有差的體驗,體驗只會越來越好,這就是臉書的創新奧秘。
2.1.3 新生代 Airbnb的融會貫通
隨著 A/B測試在互聯網行業的成熟,新生代創新企業從創業**天起就開始使用 A/B測試實施自己的創新試驗。 Airbnb(愛彼迎)作為一家互聯網時代的全球民宿預訂平臺,堅定地認為所有的產品改進都需要通過 A/B測試來實施,這樣才能夠直接判斷產品改動的商業價值(不僅僅是 Airbnb這樣的美國創新者,中國的今日頭條、滴滴等前沿科技企業也是如此)。
如圖 2-4所示, Airbnb的業務指標在三個月左右的時間內不斷上漲,其中一個月(紅色曲線部分) Airbnb嘗試上線了一個產品改動,并*終下線。從這三個月的業務數據來看,我們很難判斷這個產品改動是否影響了業務指標,更無法準確衡量這個產品改動具體對業務指標的貢獻有多大。如果這個產品改動對業務指標的影響是 –5%,那么 Airbnb就白白損失了一個月的業績;如果這個產品改動對業務指標沒有什么影響,那么這個產品改動可能就浪費了研發資源;如果這個產品改動對業務指標的影響是 10%,那么負責這個項目的團隊沒有得到應得的嘉獎,*終可能會造成人才的流失。
業績
日期
圖 2-4 只看業務指標的趨勢無法判斷產品改動的價值
通常外界的影響因素比產品本身的變化對業務指標的影響更大。用戶在工作日和周末及不同季節和不同天氣,因為網頁廣告或主動搜索觸達的產品都可能會表現出截然不同的行為模式。A/B測試的方法能夠幫助我們控制這些額外的因素,從而精確測量產品改動的價值。圖 2-5展示了 Airbnb采用 A/B測試并*終拒絕的某個產品功能。 Airbnb曾希望通過這個功能讓用戶在搜索結果中篩選產品的價位信息,但測試結果發現用戶使用這種篩選方式的頻率反而不如原有的篩選器。
圖 2-5 Airbnb測試并*終拒絕的某個產品功能
1. Airbnb的 A/B測試試驗設計
Airbnb所提供的服務有一定的特異性:首先,用戶不需要登錄就可以獲取服務,因此很難將用戶和行為捆綁在一起;其次,用戶在預訂房間的過程中可能會更換設備(電腦和手機);再次,預訂的過程可能會長達數天,因此需要等待時間以確定用戶完成或放棄預訂流程;*后,預訂是否成功還取決于空房的數量以及其主人的響應與否,而這些因素是 Airbnb所不能掌控的。綜合考慮這些因素后, Airbnb設計了適合自己的場景的 A/B測試流程和方法。
A/B測試中通常以點擊率或轉化率作為評價的指標。對于 Airbnb而言,預訂的流程同樣很復雜:首先,旅客需要通過搜索獲得房間的信息,然后聯系相關的房主;接下來,房主將決定是否接受旅客的需求;房主接受后,旅客才能真正預約到房間。除此之外,還有其他的路徑能夠進行預約,比如旅客可以不需要聯系房主就能預約某些房間,或者提交預約需求后直接到達*后一步。預約流程中的四個步驟如圖 2-6所示。盡管在測試過程中需要考慮 4個階段間的轉化,但 Airbnb將從搜索到*后預訂的整體轉化率作為試驗的主要指標。
圖2-6 按照預約步驟分別計算得到轉化率結果
2. 對測試結果進行情景化的解釋
A/B測試中需要避免的一個問題是習慣性地將測試結果當作一個整體來看待。一般而言,從某個固定的測量維度來評估測試的結果是沒有錯的,這樣做通常可以避免在多個維度中挑選*符合“需要”的數據,而故意忽視不符合假設的結果。但同樣,只單純考慮一個維度也意味著脫離了情景來看試驗數據,而有時候這些不同的情景可能會完全改變你對 A/B測試結果的解釋。
舉例來說, 2013年 Airbnb對搜索頁進行了改版設計。對于 Airbnb而言,搜索頁是業務流程中*基礎和重要的頁面。因此,能否準確地確定改版的效果是非常關鍵的。在圖 2-7中可以看到搜索頁改版前后的變化:新版更多強調了房源的圖片( Airbnb為房主提供專業的攝影師以獲得這些圖片)及標記了房源所在位置的地圖。
Airbnb為改版項目投入了許多資源,設計人員預測新版肯定會表現得更好,定性研究也表明確實如此。盡管不直接向全部用戶發布新版可能意味著大量的利益損失,但 Airbnb還是延續其“試驗文化”,推進了針對搜索頁的 A/B測試以評估改版的真正效果。
舊版新版
圖 2-7 新 /舊版本的 Airbnb搜索頁
在等待了足夠長的時間后,A/B測試的結果反饋出新版并沒有帶來更多的預約。這當然是令人難以接受的,所以 Airbnb的業務分析員決定從情景出發,將數據細分到不同的情景中來判斷究竟為什么改版沒有達到預期的效果。事實證明,問題出在 Internet Explorer(IE)上了:如圖 2-8所示,除了來自 IE的訪問以外,新版在其他主流瀏覽器上的表現都是優于舊版的。這個分析幫助 Airbnb發現了真正的問題:產品改進很有價值,但是代碼實現存在 Bug。在修復相關的問題后,源自 IE的數據也有了超出 2%的增長。
這個案例除了告訴我們在做 QA的時候要尤其注意 IE以外,也強調了從多個維度對測試結果進行解釋的價值。你可以根據瀏覽器、國家 /地區、用戶類型等多個維度分解數據來源進行分析。但需要注意的是,不要為了找到“有利”的結果而刻意去分解數據。
圖 2-8 新版設計的 A/B測試結果分析
A/B測試是產品研發過程中強有力的決策工具,能夠幫助大家更有效地進行產品優化迭代。從不同的情景中去理解測試的結果是非常重要的。你應該嘗試將數據分解到不同的維度,然后去理解不同維度下產品的效果。但是需要注意的是,A/B測試的目的在于優化產品決策,而不是為了單純提高某個優化指標。優化單個指標通常會導致為了獲得一定短期利益的機會主義決策(比如強行逼迫用戶去點擊他們不想點的東西)。
*后,驗證你所使用的測試系統是否如你所期望的一樣工作。如果 A/B測試反饋的結果有問題或者是過于理想,你都應該仔細核驗它。
2.1.4 A/B測試是優秀企業的標配
從某種角度來說,企業實力和其實施 A/B測試的能力緊密相關。如圖 2-9所示,行業龍頭因為聚攏了大量創新人才,在 A/B測試方面走在前列。
圖 2-9 公司實力與 A/B測試試驗頻率的關系
. Google每年運行超過 1萬次的 A/B測試;
. 臉書的 CEO親自參與眾多 A/B測試的實施;
. 領英(Linkedin)將 A/B測試作為產品研發上線過程中的基本流程; . Booking.com通過大量試驗實現超過同行業 2~3倍的轉化率;
. 攜程、今日頭條將試驗流程和 A/B測試作為企業的文化或制度;
. 摩拜單車、 WeWork、衣二三等明星共享經濟平臺,通過 A/B測試快速拉開了與競爭對手的距離。
不僅是互聯網明星公司,A/B測試開始在各個行業快速普及,并逐漸成為標配,如圖 2-10所示。
圖 2-10 成功使用 A/B測試的明星企業代表
2.2 深入解析 A/B測試
2.2.1 A/B測試的定義
前面的章節中介紹的幾種場景有助于幫助我們直觀理解 A/B測試。在醫學的臨床試驗中,為了驗證新藥的效果,把病人隨機分成若干組,分別施予不同劑量的新藥、已知有療效的藥物、安慰劑等不同的治療措施,并通過數據分析判定不同組的治療效果,從而確定新藥是否有療效以及和已知藥物的療效的對比情況。在達芙妮島的雀鳥進化研究中,隨著環境的變化,雀鳥們會發生隨機的基因變異,進而導致它們的鳥喙發生大小和形狀的變化,嚴酷的自然選擇會把適應環境變化的基因保留下來。
下面我們來系統地定義 A/B測試。在互聯網產品迭代實踐中的 A/B測試是指:為了驗證一個新的產品交互設計、產品功能或者策略、算法
的效果,在同一時間段,給多組用戶(一般叫作對照組和試驗組,用戶分組方法統計上隨機,使多組用戶在統計角度無差別)分別展示優化前(對照組)和優化后(試驗組,可以有多組)的產品交互設計、產品功能或者策略、算法,并通過數據分析,判斷優化前后的產品交互設計、產品功能或者策略、算法在一個或者多個評估指標上是否符合預期的一種
試驗方法。
2.2.2 A/B測試的特性
1.預測性
A/B測試是一種預測手段,而且是一種科學、精準、具有統計學意義的預測手段。
在產品、策略迭代過程中,我們往往無法預測產品、策略全量上線的效果如何,或是擔心因此帶來預料之外的損失。 A/B測試恰好提供了通過小流量試驗預測全量上線效果的能力,這種預測并不是“裸奔”性質的臆測,而是有科學的統計數據作為支撐的科學預測,也只有這樣的預測才能從真正意義上降低產品、策略迭代過程中的風險。同時, A/B測試的統計數據也為產品迭代過程提供了很好的量化指標,可以幫助決策者準確衡量產品技術團隊的產出成績,在團隊、人員的激勵上提供科學依據。
2.并行性
A/B測試的并行性是指兩個或者多個版本同時在線,分別提供給多組用戶群體使用。并行性是 A/B測試的本質特征之一,也是 A/B測試的基本條件之一。如何理解并行性的重要性呢?我們不妨假設,用沒有并行性的試驗方法去判斷 2個版本的效果差異,會產生什么問題:
這種試驗方法通常是讓全量用戶在不同時間段體驗不同版本的產品或者策略。由于不同時間段的試驗環境是不一樣的(如外賣、打車訂單量會受節假日、天氣等因素的劇烈影響),無法把環境變化導致的指標變化和產品迭代導致的指標變化區分開。
因此,忽視并行性也就失去了 A/B 測試的根本意義,兩組沒有統一維度的試驗數據也就失去了提供決策參考的基本價值。這點我們在后文中還會用一個例子進行說明。
另外,并行性也代表了 A/B 測試的效率特征——多種方案的并行試驗、同時對比。這大大提升了試驗結果的反饋效率,也從根本上提升了產品迭代與決策的效率。
3. 科學性
A/B測試是一種科學試驗。這個科學性體現在試驗設計的方方面面。下面重點闡述兩個方面:
(1)A/B測試的采樣方法是科學采樣方法,而非普通的隨機采樣方法。相比于普通的隨機采樣,科學采樣可以保證各版本流量具有一致的用戶統計特征,避免試驗版本全量上線以后的表現和 A/B測試期間的表現不一致。
(2)A/B測試評價結果的計算過程具有科學性。 A/B測試在評價結果的計算過程中,使用統計學里的假設檢驗原理進行科學的計算,能夠給出結果的置信度和置信區間、試驗的 p值、試驗的統計功效等科學指標,根據這些指標可以定量判斷試驗是否有效。對于無效的試驗也可以給出進一步的試驗建議。
2.2.3 A/B 測試的試驗類型
1.正交試驗
如圖 2-11所示有 2層試驗,**層是 P試驗,第二層是 Q試驗。在 P試驗中,用戶被分成 2組:Pa組及 Pb組。在 Q試驗中,用戶也被分成 2組:Qa組及 Qb組。
圖 2-11 正交的分層試驗
所謂的正交試驗(也叫分層試驗),就是指 Pa組用戶在 Q試驗中被均勻分入 Qa組和 Qb組,而 Pb組用戶,同樣在 Q試驗中被均勻分入 Qa組和 Qb組。
這樣做的結果是,在 Pa試驗組且在 Qa試驗組的用戶比例是 25%,在 Pa試驗組且在 Qb試驗組的用戶比例是 25%。
正交試驗是使用*廣泛的多層試驗關系。它可以使多層試驗的每一層都使用同樣多的流量去做試驗,并且使各層試驗之間的結果不會互相干擾。注意,“各層試驗之間的結果不會互相干擾”這個結論是有前提的:各層試驗的參數之間,對優化指標沒有互相增強或者抵消的效果。舉例來說,假設 Pa提升了 10%的效果, Qa提升了 10%的效果, Pa+Pb 疊加,提升的效果是 20%,而不是 25%(增強)或者 15%(抵消)。多數多層的試驗,都是以這個假設為基礎的。
2.互斥試驗
如圖 2-12所示, P試驗使用的流量, Q試驗不能使用,而 Q試驗使用的流量, P試驗也不能使用,這種情況叫作互斥試驗。這個試驗的好處是不用擔心正交試驗里面,“各層試驗之間的結果不會互相干擾”的前提不成立,而可以獨立做試驗。壞處在于,一旦把各層試驗做成互斥的,就會使每層試驗可用的流量減少,可能會使每層試驗所需的時間增加、迭代效率變低。
圖 2-12 互斥的同層試驗
2.2.4 “偽”A/B測試
要深入理解什么是 A/B測試,我們先看看什么不是 A/B測試。
隨著數據驅動決策的思想在互聯網及傳統企業中的普及,很多人開始重視 A/B測試。然而,有些人只是根據字面意義理解 A/B測試,而沒有對 A/B測試的根本原理進行深入的思考,因此對 A/B測試存在各種錯誤的理解。以下列舉一些常見的誤區,其中重點講述用戶分流的誤區。
1. 用戶分流不科學
一種典型的“偽 A/B測試”是在不同的應用市場發布不同版本的 App,或者在不同渠道發布不同版本的頁面,并進行用戶數據對比。實際上,A/B測試強調對照組和試驗組這 2個版本的用戶分布必須是一致的。不同的應用市場、不同的渠道,其用戶的分布會有很明顯的區別,因此通過這種方式做出來的試驗數據,不具有可信性。正確的做法是,要么在不同的應用市場發布相同版本的 App,要么在相同的應用市場(或者同時在多個應用市場)發布不同版本的 App,保證在同一個時間點,發生變化的只有一個變量。
為什么不止一個變量發生變化的對比測試是偽 A/B測試呢?這就要談到辛普森悖論了。
A/B測試:創新始于試驗 作者簡介
王曄(Sando Wang),吆喝科技公司創始人,清華大學電子工程系碩士、耶魯大學計算機科學博士學位,中國互聯網試驗創新領域布道師,“中國創新創業大賽”與“千人計劃創業大賽”雙料冠軍獲得者。先后就職于NEC、微軟、谷歌等國際知名公司,任職期間負責 P2P 流媒體優化、P4P/ALTO、Google Adwords 質量與移動廣告新產品等前沿項目的設計、開發及優化工作,積累了大量試驗創新的理論和實戰經驗。歷任IEEE移動計算、GLOBECOM互聯網協議與車輛技術評論專家、ACM外部審核專家、2009年對等網絡國際研討會、超現代化的通訊和控制系統2010、2011年國際會議TPC成員。 王曄于2014年回國創立吆喝科技公司,率先將硅谷先進的 A/B 測試理論、方法與技術引入中國,與國內外優秀企業一同探索中國特色的試驗創新之路。目前,吆喝科技公司已經幫助數千家企業用戶成功運行數萬組試驗,并榮獲2018年人工智能及大數據產業“具投資價值的公司”的稱號、2018年盛景創新大獎全球20強等獎項。
- >
名家帶你讀魯迅:朝花夕拾
- >
隨園食單
- >
朝聞道
- >
羅曼·羅蘭讀書隨筆-精裝
- >
推拿
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
我從未如此眷戀人間
- >
羅庸西南聯大授課錄