este vorba despre date în aceste zile. Liderii nu vor să ia decizii decât dacă au dovezi. Acesta este un lucru bun, desigur, și, din fericire, există o mulțime de modalități de a obține informații fără a fi nevoie să se bazeze pe instinctele cuiva. Una dintre cele mai comune metode, în special în setările online, este testarea A/B.,pentru a înțelege mai bine ce este testarea A/B, de unde provine și cum să o folosesc, am vorbit cu Kaiser Fung, care a fondat programul de analiză aplicată la Universitatea Columbia și este autorul Junk Charts, un blog dedicat examinării critice a datelor și graficii în mass-media. Ultima sa carte este Number Sense: Cum să folosești date mari în avantajul tău.
ce este testarea A / B?
testarea A/B, la cele mai de bază, este o modalitate de a compara două versiuni de ceva pentru a da seama care funcționează mai bine., Deși este cel mai adesea asociat cu site-uri web și aplicații, Fung spune că metoda are aproape 100 de ani.în anii 1920, statisticianul și biologul Ronald Fisher au descoperit cele mai importante principii din spatele testării A/B și a experimentelor controlate randomizate în general. „Nu a fost primul care a condus un astfel de experiment, dar a fost primul care a dat seama de principiile de bază și de matematică și le-a făcut o știință”, spune Fung.Fisher a efectuat experimente agricole, punând întrebări cum ar fi, ce se întâmplă dacă aș pune mai mult îngrășământ pe acest teren?, Principiile au persistat și la începutul anilor 1950 oamenii de știință au început să efectueze studii clinice în medicină. În anii 1960 și 1970, conceptul a fost adaptat de către marketeri pentru a evalua campaniile de răspuns direct (de exemplu, o carte poștală sau o scrisoare către clienții țintă ar avea ca rezultat mai multe vânzări?).
testarea A / B, în forma sa actuală, a apărut în anii 1990. Fung spune că de-a lungul secolului trecut matematica din spatele testelor nu sa schimbat., „Sunt aceleași concepte de bază, dar acum o faci online, într-un mediu în timp real și la o scară diferită în ceea ce privește numărul de participanți și numărul de experimente.”
cum funcționează testarea A/B?
începeți un test A / B prin a decide ce doriți să testați. Fung oferă un exemplu simplu: Dimensiunea butonului abonare de pe site-ul dvs. web. Apoi, trebuie să știți cum doriți să evaluați performanța. În acest caz, să presupunem că valoarea dvs. este numărul de vizitatori care fac clic pe buton., Pentru a rula testul, vă arată două seturi de utilizatori (atribuite la întâmplare atunci când vizitează site-ul) versiuni diferite (în cazul în care singurul lucru diferit este dimensiunea butonului) și de a determina care a influențat succesul metric cel mai mult. În acest caz, ce dimensiune a butonului a determinat mai mulți vizitatori să facă clic?în viața reală există o mulțime de lucruri care influențează dacă cineva face clic. De exemplu, este posibil ca cei de pe un dispozitiv mobil să aibă mai multe șanse să facă clic pe un anumit buton de dimensiune, în timp ce cei de pe desktop sunt atrași de o dimensiune diferită. Aici randomizarea poate ajuta-și este critică., Prin randomizarea utilizatorilor din ce grup, minimizați șansele ca alți factori, cum ar fi mobile versus desktop, să vă conducă rezultatele în medie.
„testul A / B poate fi considerat cel mai de bază tip de experiment controlat randomizat”, spune Fung. „În forma sa cea mai simplă, există două tratamente și unul acționează ca control pentru celălalt.”Ca și în cazul tuturor experimentelor controlate randomizate, trebuie să estimați dimensiunea eșantionului de care aveți nevoie pentru a obține o semnificație statistică, ceea ce vă va ajuta să vă asigurați că rezultatul pe care îl vedeți „nu este doar din cauza zgomotului de fond”, spune Fung.,uneori, știți că anumite variabile, de obicei cele care nu sunt ușor de manipulat, au un efect puternic asupra metricii succesului. De exemplu, poate că utilizatorii mobili ai site-ului dvs. web tind să facă clic mai puțin pe orice, în comparație cu utilizatorii desktop. Randomizarea poate duce la setarea A care conține puțin mai mulți utilizatori mobili decât setul B, ceea ce poate determina setarea A să aibă o rată de clic mai mică, indiferent de dimensiunea butonului pe care îl văd. Pentru a echilibra terenul de joc, analistul de testare ar trebui să împartă mai întâi utilizatorii pe mobil și desktop și apoi să le atribuie aleatoriu fiecărei versiuni. Aceasta se numește blocare.,
Dimensiunea butonului abonare este un exemplu foarte de bază, spune Fung. În realitate, s-ar putea să nu testați doar dimensiunea, ci și culoarea, textul și tipul de caractere și dimensiunea fontului. O mulțime de manageri execută teste secvențiale — de exemplu, testând mai întâi dimensiunea (mare versus mică), apoi testând culoarea (albastru versus roșu), apoi testând caracterele (ori versus Arial) — deoarece consideră că nu ar trebui să varieze doi sau mai mulți factori în același timp. Dar, potrivit lui Fung, acest punct de vedere a fost demascat de statisticieni., Și testele secvențiale sunt suboptimale pentru că nu măsurați ce se întâmplă atunci când factorii interacționează. De exemplu, este posibil ca utilizatorii să prefere albastru în medie, dar preferă roșu atunci când este combinat cu Arial. Acest tip de rezultat este ratat în mod regulat în testarea secvențială A/B, deoarece testul tiparului este rulat pe butoane albastre care au „câștigat” testul anterior.
În schimb, spune Fung, ar trebui să executați teste mai complexe., Acest lucru poate fi greu pentru unii manageri, deoarece apelul testelor A/B este cât de simplu și simplu trebuie să ruleze (și mulți oameni care proiectează aceste experimente, subliniază Fung, nu au un fundal statistic). „Cu testarea A/B, avem tendința de a dori să rulăm un număr mare de teste simultane, independente”, spune el, în mare parte, deoarece mintea se rotește la numărul de combinații posibile pe care le puteți testa. Dar folosind matematica puteți ” alege inteligent și rula doar anumite subseturi ale acestor tratamente; atunci puteți deduce restul din date.,”Aceasta se numește testare „multivariată” în lumea testării A/B și adesea înseamnă că ajungeți să faceți un test A/B/C sau chiar un test A/B/C/D. În exemplul de mai sus, cu culori și dimensiuni, ar putea însemna afișarea diferitelor grupuri: un buton roșu mare, un buton roșu mic, un buton albastru mare și un buton albastru mic. Dacă doriți să testați și fonturile, numărul grupurilor de testare ar crește și mai mult.
cum interpretați rezultatele unui Test A / B?,
este posibil ca compania dvs. să utilizeze software care se ocupă de calcule și poate chiar să angajeze un statistician care să poată interpreta aceste rezultate pentru dvs. Dar este util să aveți o înțelegere de bază a modului de a înțelege rezultatul și de a decide dacă să mergeți mai departe cu variația testului (noul buton din exemplul de mai sus).Fung spune că majoritatea programelor software raportează două rate de conversie pentru testarea A/B: una pentru utilizatorii care au văzut versiunea de control și cealaltă pentru utilizatorii care au văzut versiunea de test., „Rata de conversie poate măsura clicurile sau alte acțiuni întreprinse de utilizatori”, spune el. Raportul ar putea arăta astfel: „Control: 15% (+/- 2.1%) variație 18% (+/- 2.3%).”Aceasta înseamnă că 18% dintre utilizatorii dvs. au făcut clic pe noua variație (poate butonul albastru mai mare) cu o marjă de eroare de 2.3%. S-ar putea să fiți tentat să interpretați acest lucru ca rata de conversie reală care se încadrează între 15.7% și 20.3%, dar acest lucru nu ar fi corect din punct de vedere tehnic., „Interpretarea reală este că, dacă ați efectuat testul A/B de mai multe ori, 95% din intervale vor capta adevărata rată de conversie — cu alte cuvinte, rata de conversie se încadrează în afara marjei de eroare 5% din timp (sau orice nivel de semnificație statistică pe care l-ați setat)”, explică Fung.dacă acest lucru este greu să vă înfășurați capul, Alăturați-vă clubului. Ceea ce este important de știut este că rata de conversie de 18% nu este o garanție. Aici intervine judecata ta. O rată de conversație de 18% este cu siguranță mai bună decât una de 15%, permițând chiar marja de eroare (12.9% -17.1% față de 15.7% -20.,3%). S-ar putea auzi oamenii vorbesc despre acest lucru ca un „lift de 3%” (lift este pur și simplu diferența procentuală în rata de conversie între versiunea de control și un tratament de testare de succes). În acest caz, este cel mai probabil o decizie bună să treceți la noua versiune, dar aceasta va depinde de costurile implementării noii versiuni. Dacă acestea sunt scăzute, puteți încerca comutatorul și puteți vedea ce se întâmplă în realitate (spre deosebire de teste). Unul dintre marile avantaje ale testării în lumea online este că, de obicei, puteți reveni la original destul de ușor.
cum folosesc companiile testarea A / B?,Fung spune că popularitatea metodologiei a crescut pe măsură ce companiile și-au dat seama că mediul online este potrivit pentru a ajuta managerii, în special marketerii, să răspundă la întrebări precum: „Ce este cel mai probabil să facă oamenii să facă clic? Sau cumpărați produsul nostru? Sau înregistrați-vă pe site-ul nostru?”Testarea A / B este acum utilizată pentru a evalua totul, de la designul site-ului web la ofertele online până la titluri până la descrierile produselor. (De fapt, săptămâna trecută am analizat rezultatele testelor A/B pe limba pe care o folosim pentru a comercializa un produs nou aici la HBR.,majoritatea acestor experimente se desfășoară fără ca subiecții să știe. „Ca utilizator, facem parte din aceste teste tot timpul și nu o știm”, spune Fung.
și nu este vorba doar de site-uri web. Puteți testa și e-mailuri sau anunțuri de marketing. De exemplu, puteți trimite două versiuni ale unui e-mail către lista dvs. de clienți (randomizând lista mai întâi, desigur) și să vă dați seama care dintre ele generează mai multe vânzări. Apoi, puteți trimite doar versiunea câștigătoare data viitoare. Sau poți testa două versiuni de ad copy și poți vedea care convertește vizitatorii mai des., Atunci știi să-și petreacă mai mult obtinerea cel mai de succes acolo.
ce greșeli fac oamenii atunci când fac teste A/B?
l-am întrebat pe Fung despre greșelile pe care le vede că le fac companiile atunci când efectuează teste A/B și a indicat trei comune.în primul rând, spune el, prea mulți manageri nu lasă testele să-și urmeze cursul. Deoarece cea mai mare parte a software-ului pentru rularea acestor teste vă permite să urmăriți rezultatele în timp real, managerii doresc să ia decizii prea repede., Această greșeală, spune el, „evoluează de nerăbdare,” și mulți furnizori de software au jucat în acest overeagerness prin oferirea de un tip de testare a/B, numit „optimizarea în timp real”, în care puteți utiliza algoritmi pentru a face ajustări ca vin rezultatele. Problema este că, din cauza randomizării, este posibil ca, dacă lăsați testul să ruleze la sfârșitul său natural, s-ar putea obține un rezultat diferit.a doua greșeală se uită la prea multe valori. „Mă încurc de fiecare dată când văd software care încearcă să mulțumească pe toată lumea, oferindu-vă un panou de sute de valori”, spune el., Problema este că, dacă vă uitați la un număr atât de mare de valori în același timp, riscați să faceți ceea ce statisticienii numesc „corelații false.”În proiectarea corectă a testului”, ar trebui să decideți valorile pe care le veți examina înainte de a executa un experiment și de a selecta câteva. Cu cât măsurați mai mult, cu atât este mai probabil să vedeți fluctuații aleatorii.”Cu atât de multe valori, în loc să vă întrebați: „ce se întâmplă cu această variabilă?”vă întrebați” ce schimbări interesante (și potențial nesemnificative) văd?,în cele din urmă, Fung spune că puține companii fac suficientă retestare. „Avem tendința să o testăm o dată și apoi o credem. Dar chiar și cu un rezultat semnificativ statistic, există o probabilitate destul de mare de eroare fals pozitivă. Dacă nu retestați din când în când, nu excludeți posibilitatea de a greși.”Fals pozitive pot apărea din mai multe motive. De exemplu, chiar dacă este posibil să existe puține șanse ca orice rezultat A/B dat să fie condus de șanse aleatorii, dacă faceți o mulțime de teste A/B, șansele ca cel puțin unul dintre rezultatele dvs. să fie greșit cresc rapid.,
acest lucru poate fi deosebit de dificil de făcut, deoarece este probabil ca managerii să ajungă la rezultate contradictorii și nimeni nu vrea să descopere că au subminat constatările anterioare, în special în lumea online, unde managerii doresc să facă schimbări — și să capteze valoare — rapid. Dar acest accent pe valoare poate fi greșit, Fung spune: „oamenii nu sunt foarte vigilenți cu privire la valoarea practică a constatărilor. Ei vor să creadă că fiecare cantitate mică de îmbunătățire este valoroasă chiar și atunci când rezultatele testelor nu sunt pe deplin fiabile., De fapt, cu cât îmbunătățirea este mai mică, cu atât rezultatele sunt mai puțin fiabile.este clar că testarea A / B nu este un panaceu. Există tipuri mai complexe de experimente care sunt mai eficiente și vă vor oferi date mai fiabile, spune Fung. Dar testarea A / B este o modalitate excelentă de a înțelege rapid o întrebare pe care o aveți. Și ” vestea bună despre lumea testării A / B este că totul se întâmplă atât de repede, așa că dacă îl rulați și nu funcționează, puteți încerca altceva. Puteți întoarce întotdeauna la vechea tactică.”