Un aggiornamento su A / B Testing

È tutta una questione di dati in questi giorni. I leader non vogliono prendere decisioni a meno che non abbiano prove. Questa è una buona cosa, ovviamente, e fortunatamente ci sono molti modi per ottenere informazioni senza dover fare affidamento sui propri istinti. Uno dei metodi più comuni, in particolare nelle impostazioni online, è il test A/B.,

Per capire meglio cos’è il test A/B, dove è nato e come usarlo, ho parlato con Kaiser Fung, che ha fondato il programma applied analytics presso la Columbia University ed è autore di Junk Charts, un blog dedicato all’esame critico dei dati e della grafica nei mass media. Il suo ultimo libro è Number Sense: Come utilizzare i Big Data a proprio vantaggio.

Che cos’è il test A/B?

Il test A / B, nella sua forma più elementare, è un modo per confrontare due versioni di qualcosa per capire quali prestazioni migliori., Mentre è più spesso associato a siti Web e app, Fung afferma che il metodo ha quasi 100 anni.

Nel 1920 lo statistico e biologo Ronald Fisher scoprì i principi più importanti alla base dei test A / B e degli esperimenti controllati randomizzati in generale. ” Non è stato il primo a eseguire un esperimento come questo, ma è stato il primo a capire i principi di base e la matematica e renderli una scienza”, dice Fung.

Fisher ha condotto esperimenti agricoli, ponendo domande come, Cosa succede se metto più fertilizzante su questa terra?, I principi persistevano e nei primi anni 1950 gli scienziati hanno iniziato a eseguire studi clinici in medicina. Negli anni ’60 e’ 70 il concetto è stato adattato dai marketer per valutare le campagne di risposta diretta (ad esempio, una cartolina o una lettera per indirizzare i clienti comporterebbe più vendite?).

Il test A / B, nella sua forma attuale, è nato negli 1990. Fung dice che durante il secolo scorso la matematica dietro i test non è cambiata., “Sono gli stessi concetti fondamentali, ma ora lo stai facendo online, in un ambiente in tempo reale e su una scala diversa in termini di numero di partecipanti e numero di esperimenti.”

Come funziona il test A / B?

Si avvia un test A / B decidendo cosa si desidera testare. Fung fornisce un semplice esempio: la dimensione del pulsante Iscriviti sul tuo sito web. Quindi è necessario sapere come si desidera valutare le sue prestazioni. In questo caso, supponiamo che la tua metrica sia il numero di visitatori che fanno clic sul pulsante., Per eseguire il test, mostri due gruppi di utenti (assegnati a caso quando visitano il sito) le diverse versioni (dove l’unica cosa diversa è la dimensione del pulsante) e determina quale ha influenzato maggiormente la tua metrica di successo. In questo caso, quale dimensione del pulsante ha causato più visitatori a fare clic?

Nella vita reale ci sono un sacco di cose che influenzano se qualcuno fa clic. Ad esempio, è possibile che quelli su un dispositivo mobile siano più propensi a fare clic su un determinato pulsante di dimensioni, mentre quelli sul desktop sono disegnati su una dimensione diversa. Questo è dove la randomizzazione può aiutare-ed è fondamentale., Randomizzando quali utenti sono in quale gruppo, si riducono al minimo le probabilità che altri fattori, come mobile contro desktop, guiderà i risultati in media.

” Il test A/B può essere considerato il tipo più semplice di esperimento controllato randomizzato”, afferma Fung. “Nella sua forma più semplice, ci sono due trattamenti e uno funge da controllo per l’altro.”Come per tutti gli esperimenti controllati randomizzati, è necessario stimare la dimensione del campione necessario per ottenere una significatività statistica, che ti aiuterà a assicurarti che il risultato che stai vedendo “non sia solo a causa del rumore di fondo”, afferma Fung.,

A volte, sai che alcune variabili, di solito quelle che non sono facilmente manipolabili, hanno un forte effetto sulla metrica di successo. Ad esempio, forse gli utenti mobili del tuo sito web tendono a fare clic meno su qualsiasi cosa, rispetto agli utenti desktop. La randomizzazione può causare il set A che contiene un numero leggermente maggiore di utenti mobili rispetto al set B, il che può causare un tasso di clic inferiore indipendentemente dalla dimensione del pulsante che stanno vedendo. Per livellare il campo di gioco, l’analista di test dovrebbe prima dividere gli utenti per dispositivi mobili e desktop e quindi assegnarli casualmente a ciascuna versione. Questo è chiamato blocco.,

La dimensione del pulsante Iscriviti è un esempio molto semplice, dice Fung. In realtà, potresti non testare solo la dimensione, ma anche il colore, il testo, il carattere tipografico e la dimensione del carattere. Molti manager eseguono test sequenziali, ad esempio test delle dimensioni prima (grande contro piccolo), quindi test del colore (blu contro rosso), quindi test del carattere tipografico (volte contro Arial), perché ritengono che non dovrebbero variare due o più fattori allo stesso tempo. Ma secondo Fung, questo punto di vista è stato sfatato dagli statistici., E i test sequenziali sono subottimali perché non stai misurando cosa succede quando i fattori interagiscono. Ad esempio, potrebbe essere che gli utenti preferiscano il blu in media ma preferiscano il rosso quando è combinato con Arial. Questo tipo di risultato viene regolarmente perso nei test sequenziali A/B perché il test del carattere tipografico viene eseguito su pulsanti blu che hanno “vinto” il test precedente.

Invece, Fung dice, dovresti eseguire test più complessi., Questo può essere difficile per alcuni manager, dal momento che l’appello dei test A/B è quanto siano semplici e semplici da eseguire (e molte persone che progettano questi esperimenti, sottolinea Fung, non hanno uno sfondo statistico). “Con i test A / B, tendiamo a voler eseguire un gran numero di test simultanei e indipendenti”, dice, in gran parte perché la mente si muove al numero di possibili combinazioni che puoi testare. Ma usando la matematica puoi ” scegliere ed eseguire in modo intelligente solo determinati sottoinsiemi di tali trattamenti; quindi puoi dedurre il resto dai dati.,”Questo è chiamato test “multivariato” nel mondo dei test A/B e spesso significa che si finisce per fare un test A/B/C o anche un test A/B/C/D. Nell’esempio sopra con colori e dimensioni, potrebbe significare mostrare diversi gruppi: un grande pulsante rosso, un piccolo pulsante rosso, un grande pulsante blu e un piccolo pulsante blu. Se volessi testare anche i font, il numero di gruppi di test crescerebbe ancora di più.

Come si interpretano i risultati di un test A / B?,

È probabile che la tua azienda utilizzi un software che gestisce i calcoli e potrebbe persino impiegare uno statistico in grado di interpretare tali risultati per te. Ma è utile avere una comprensione di base di come dare un senso all’output e decidere se andare avanti con la variazione del test (il nuovo pulsante nell’esempio sopra).

Fung afferma che la maggior parte dei programmi software riporta due tassi di conversione per i test A / B: uno per gli utenti che hanno visto la versione di controllo e l’altro per gli utenti che hanno visto la versione di prova., ” Il tasso di conversione può misurare i clic o altre azioni intraprese dagli utenti”, afferma. Il rapporto potrebbe essere simile a questo: “Controllo: 15% (+/- 2.1%) Variazione 18% (+/- 2.3%).”Ciò significa che il 18% dei tuoi utenti ha cliccato sulla nuova variazione (forse il tuo pulsante blu più grande) con un margine di errore del 2,3%. Si potrebbe essere tentati di interpretare questo come il tasso di conversione effettivo che cade tra il 15,7% e il 20,3%, ma ciò non sarebbe tecnicamente corretto., “La vera interpretazione è che se hai eseguito il test A/B più volte, il 95% degli intervalli catturerà il vero tasso di conversione — in altre parole, il tasso di conversione non rientra nel margine di errore del 5% delle volte (o qualsiasi livello di significatività statistica che hai impostato)”, spiega Fung.

Se questo è difficile da avvolgere la testa, unisciti al club. Ciò che è importante sapere è che il tasso di conversione del 18% non è una garanzia. E ‘ qui che entra in gioco il tuo giudizio. Un tasso di conversazione del 18% è certamente migliore di uno del 15%, anche tenendo conto del margine di errore (12,9% -17,1% contro 15,7% -20.,3%). Potresti sentire la gente parlare di questo come di un “3% lift” (lift è semplicemente la differenza percentuale nel tasso di conversione tra la versione di controllo e un trattamento di test di successo). In questo caso, è molto probabile che sia una buona decisione passare alla nuova versione, ma ciò dipenderà dai costi di implementazione della nuova versione. Se sono bassi, potresti provare l’interruttore e vedere cosa succede in realtà (al contrario dei test). Uno dei grandi vantaggi dei test nel mondo online è che di solito puoi tornare al tuo originale abbastanza facilmente.

In che modo le aziende utilizzano i test A / B?,

Fung afferma che la popolarità della metodologia è aumentata in quanto le aziende si sono rese conto che l’ambiente online è adatto per aiutare i manager, in particolare i marketer, a rispondere a domande come: “Cosa è più probabile che faccia clic sulle persone? O acquistare il nostro prodotto? O registrati al nostro sito?”Il test A/B viene ora utilizzato per valutare tutto, dalla progettazione di siti Web alle offerte online, dai titoli alle descrizioni dei prodotti. (Infatti, la scorsa settimana ho esaminato i risultati dei test A/B sul linguaggio che usiamo per commercializzare un nuovo prodotto qui a HBR.,)

La maggior parte di questi esperimenti viene eseguita senza che i soggetti lo sappiano. ” Come utente, facciamo parte di questi test tutto il tempo e non lo sappiamo”, afferma Fung.

E non sono solo siti web. È possibile testare e-mail di marketing o annunci pure. Ad esempio, potresti inviare due versioni di un’e-mail al tuo elenco clienti (randomizzando prima l’elenco, ovviamente) e capire quale genera più vendite. Quindi puoi semplicemente inviare la versione vincente la prossima volta. Oppure potresti testare due versioni di ad copy e vedere quale converte i visitatori più spesso., Poi si sa di spendere di più per ottenere quello di maggior successo là fuori.

Quali errori fanno le persone quando fanno test A / B?

Ho chiesto a Fung gli errori che vede fare le aziende durante l’esecuzione di test A / B e ha indicato tre comuni.

In primo luogo, dice, troppi manager non lasciano che i test facciano il loro corso. Poiché la maggior parte del software per l’esecuzione di questi test consente di guardare i risultati in tempo reale, i manager vogliono prendere decisioni troppo rapidamente., Questo errore, dice,” si evolve per impazienza “e molti fornitori di software hanno giocato in questa esagerazione offrendo un tipo di test A/B chiamato” ottimizzazione in tempo reale”, in cui è possibile utilizzare algoritmi per apportare modifiche man mano che i risultati arrivano. Il problema è che, a causa della randomizzazione, è possibile che se si lascia che il test venga eseguito alla sua fine naturale, si potrebbe ottenere un risultato diverso.

Il secondo errore è guardare troppe metriche. “Rabbrividisco ogni volta che vedo un software che cerca di accontentare tutti dandoti un pannello di centinaia di metriche”, dice., Il problema è che se stai guardando un numero così elevato di metriche allo stesso tempo, sei a rischio di fare ciò che gli statistici chiamano “correlazioni spurie.”Nella corretta progettazione del test”, dovresti decidere le metriche che esaminerai prima di eseguire un esperimento e selezionarne alcune. Più si sta misurando, più è probabile che si sta andando a vedere fluttuazioni casuali.”Con così tante metriche, invece di chiederti:” Cosa sta succedendo con questa variabile?”stai chiedendo”, quali cambiamenti interessanti (e potenzialmente insignificanti) sto vedendo?,”

Infine, Fung dice che poche aziende fanno abbastanza test. “Tendiamo a testarlo una volta e poi ci crediamo. Ma anche con un risultato statisticamente significativo, c’è una probabilità abbastanza grande di errore falso positivo. A meno che non si riprova una volta ogni tanto, non si esclude la possibilità di essere sbagliato.”I falsi positivi possono verificarsi per diversi motivi. Ad esempio, anche se ci possono essere poche possibilità che un dato risultato A/B sia guidato da un caso casuale, se fai molti test A/B, le probabilità che almeno uno dei tuoi risultati sia sbagliato cresce rapidamente.,

Questo può essere particolarmente difficile da fare perché è probabile che i manager finirebbero con risultati contraddittori, e nessuno vuole scoprire di aver minato i risultati precedenti, specialmente nel mondo online, dove i manager vogliono apportare modifiche — e acquisire valore — rapidamente. Ma questo focus sul valore può essere fuorviante, Fung dice: “Le persone non sono molto vigili circa il valore pratico dei risultati. Vogliono credere che ogni piccola quantità di miglioramento sia preziosa anche quando i risultati del test non sono completamente affidabili., In effetti, minore è il miglioramento, meno affidabili sono i risultati.”

È chiaro che il test A/B non è una panacea. Ci sono tipi più complessi di esperimenti che sono più efficienti e vi darà dati più affidabili, Fung dice. Ma il test A / B è un ottimo modo per ottenere una rapida comprensione di una domanda che hai. E ” la buona notizia sul mondo dei test A / B è che tutto accade così velocemente, quindi se lo esegui e non funziona, puoi provare qualcos’altro. Puoi sempre tornare alla vecchia tattica.”