A/B testy a Weldonove kostky

Články ‐ Peter Brejčák ‐ Různé ‐ 30. 4. 2012

Drtivá většina uživatelů vašich webů má nadprůměrný počet prstů. Tato informace je pravdivá (pokud nejste provozovatelem webu pro lidi po amputaci). Pro její ověření můžete udělat rozsáhlý průzkum a pak výsledky vyhodnocovat statistickým softwarem a analytickými nástroji. Dá se na to přijít i bez toho výzkumu. Ale zajímá to někoho?

Nálepky:

Statistika je krásná věda, které toho umí hodně. Statistika se používá i na vyhodnocování A/B testování (a to je jenom dobře).

Málo dat

Provedení A/B testu je hezky popsáno v tomto článku. Interpretace výsledků je ale špatná (viz diskuse pod článkem). Tohle je příklad, jak se to dělat, nebo spíše vyhodnocovat, nemá. Problémem v tomto případu je malá četnost dat na to, jaký typ testu byl použit. Z malé množiny dat budete možná schopni vybrat lepší z 2 možností (tj. tu nejlepší). U 6 možností (tolik se uvažuje v článku) je ale situace výrazně komplikovanější a jenom ukázat, že tyto možnosti nejsou stejné (viz testy dobré shody), vyžaduje víc dat než v případu 2 možností. A pokud budete chtít vybrat z 6 možností tu nejlepší, vzorek bude muset být ještě větší.

Hodně dat

Dalším extrémem je velký objem reálných dat. Je to extrém, nikoliv problém. Nicméně statistika a testy jsou výrazně starší než IT technika. Například T-test začal používat pracovník pivovaru Guinness na začátku 20. století. V tom období nebyl k dispozici tak velký objem dat k analýze jako v současnosti. A v tabulkách pro kritické hodnoty vidíme, že „nekonečno začíná hodně brzo“ (už u vzorku s četností 100 se kritická hodnota liší o méně než 2 procenta oproti „nekonečnému vzorku“). Taky v učebnicích statistiky většinou narazíte na příklady, kde je četnost vzorku v jednotkách, maximálně v desítkách.

Při velkém množství údajů bude mít statistika tendenci zamítnout hypotézu o rovnosti (tj. pomocí statistiky ukážeme, že uvažované varianty nejsou shodné). Důvodem je, že každé dvě reálné věci jsou rozdílné (ok, protony nejsou, atomy plyny taky nejsou, ale ty nebudeme testovat) a taky, že se při velkém vzorku výrazně projeví nesplnění teoretických předpokladů (tj. že náhodné veličiny mají být nezávislé a stejně rozdělené). Například předpokládejme, že máte online obchod s obrovskou návštěvností (statisíce přístupů za týden – uvažujeme i přístupy bez nákupu). Testem chceme zjistit, zda má uvažovaná změna dopad na počet kupovaných položek, které zákazníci nakupují a na celkovou sumu peněz, které zákazníci utratí. Testem zjistíme, že zákazníci po změně nakupují o 0,3 % více položek a je to statisticky významné a současně utratí o 0,4 % méně, ale statisticky významné to není (díky větší směrodatné odchylce vzhledem ke střední hodnotě). Co s takovým výsledkem?

Walter Frank Raphael Weldon v 19. století házel 26 306 krát 12 kostkami a sledoval četnost pětek a šestek. Z výsledků experimentu plyne, že kostky nebyly symetrické. Stejný závěr zjistili i vědci, když experiment zopakovali (na házení kostek a počítaní výsledků už použili automat).

Dokonalou kostku, minci nebo ruletu prostě neuděláte. Taky dvě rozdílné marketingové kampaně se stejným výsledkem neuděláte (pokud alespoň jedna kampaň bude mít dopad). Ale dokázat to pomocí statistiky dá zabrat.

Generátory náhodných čísel fungují ale i pro obrovské četnosti dle teoretických předpokladů. Ani při generování 2 000 000 000 hodů imaginární mincí jsem neukázal, že by algoritmus fungoval špatně (Oracle 11, dbms_random). Panna padla 1 000 003 718 krát.

Co je dobré pro A/B testy?

Dělejte test správně. Nenáhodné rozdělení na skupiny může mít překvapující závěry. Na muže funguje lépe kampaň A, na ženy funguje lépe kampaň A, ale na lidi – sjednocení mužů a žen – funguje lépe kampaň B. Viz Simpsonův paradox. Raději méně kvalitních dat, než hodně špatných dat.

Víc dat. Platí, že pro dokázání malého rozdílu potřebujeme výrazně více dat než pro dokázaní velkého rozdílu (zjednodušeně pro n-krát přesnější odhad potřebujete n²-krát více dat). Taky lépe odhalíte případné chyby v metodice měření a případné extrémy budou mít na výsledek menší dopad. Nicméně i pro obrovské vzorky je nutné dodržovat metodiku. Například průzkum s 2,4 miliony respondenty špatně vybral budoucího prezidenta USA.

Využívejte data, které máte, co nejlépe. Například když máte pro účastníky testu historická data, je možné využít bayesovskou statistiku pro další a lepší analýzu. Když test děláte pro klienty, u kterých máte historii, tak ty data z historie využijte.

A hlavně předtím, než začnete testovat si uvědomte, co vaše data znamenají a co chcete dosáhnout. Množství zakoupeného piva a pohlaví klienta jsou závislé. Množství zakoupeného kondicionéru na vlasy a pohlaví klienta jsou závislé. Závislé jsou i množství zakoupeného piva a kondicionéru. Která z těchto závislostí se dá marketingově využít?

Peter Brejčák

Vystudoval matematickou statistiku na MFF UK, Pracuje jako matematik pro vyhledávač hotelů trivago

Odebírat

8 Komentářů

Nejstarší

Nejnovější Most Voted

Inline Feedbacks

Zobrazit všechny komentáře

David Adamczyk

14 let před

Super článek, bude mít pokračování?

Odpovědět

none_

Nějak mi v tom článku chybí kontext. O co vlastně jde? Co je to A/B testování? Má tento článek jenom rozšiřovat ten z Lupy?

Článek možná dobrý, zaujal mě, chtěl jsem si ho přečíst, ale po prvních pár odstavcích jsem byl stejně zmatenej, jako po první přednášce ze statistiky…

Martin Hassman

Odpovědět na none_

Co je to A/B testování? Hned na začátku je odkaz „Provedení A/B testu je hezky popsáno v tomto článku.“ A kdyby to nestačilo, Google určitě pomůže, těch vysvětlení A/B testování už vyšla řada, je zbytečné je tady suplovat.

tdvorak

Odpovědět na Martin Hassman

Na druhou stranu napsat dvě tři věty o tom, co A/B testování je, by taky článku nijak neublížilo a aspoň by to neznalého uživatele nenutilo odskakovat zcela mimo text. Zas tak obecně známý a rozšířený pojem to podle mě není (vím o něm jen proto, že jsem na zmiňovaný článek narazil náhodou na lupě).

Odpovědět na tdvorak

Pokud A/B testování není moc rozšířeno (jsem šokován, byv přesvědčen o opaku), pak je to určitě špatně. Tak snad jsme aspoň trochu rozčeřili vody a přispěli k nápravě. 8-)

No, já pochybuji o rozšíření jakéhokoli testování, natož A/B :-) Článek je určitě užitečný, jen tak dál.

kahi

Koukám že autor má v historii více zajímavých článků, jen tak dál Zdrojáku, zkus ho popíchnout k dalším, prosím!

Odpovědět na kahi

Snažíme se 8-)

A/B testy a Weldonove kostky

Nálepky:

Málo dat

Hodně dat

Co je dobré pro A/B testy?

Peter Brejčák

Komentáře

Data blíž k uživateli: kde naráží local-first web

Prolog nezmizel. Jen dnes žije v jiných nástrojích

Hermes místo OpenClaw?

Sledujte Zdroják:

Hádej co? Cookies!