A Refresher on a/B Testing

It’s all about data today. Os líderes não querem tomar decisões a menos que tenham provas. Isso é uma coisa boa, é claro, e felizmente existem muitas maneiras de obter informações sem ter que confiar nos instintos de alguém. Um dos métodos mais comuns, particularmente em Configurações online, é o teste A / B.,

para entender melhor o que é o teste A / B, onde ele se originou, e como usá-lo, falei com Kaiser Fung, que fundou o programa de análise aplicada na Universidade de Columbia e é autor de Junk Charts, um blog dedicado ao exame crítico de dados e Gráficos na mídia de massa. Seu último livro é o sentido de número: como usar grandes dados para sua vantagem.o que é um teste A / B?

A / B testing, no seu mais básico, é uma maneira de comparar duas versões de algo para descobrir o que funciona melhor., Embora seja mais frequentemente associado a sites e aplicativos, o Fung diz que o método tem quase 100 anos de idade.

na década de 1920, o estatístico e biólogo Ronald Fisher descobriu os princípios mais importantes por trás de testes A / B e experimentos controlados aleatórios em geral. “Ele não foi o primeiro a fazer uma experiência como essa, mas foi o primeiro a descobrir os princípios básicos e a matemática e torná-los uma ciência”, diz Fung.Fisher fez experimentos agrícolas, fazendo perguntas como, o que acontece se eu colocar mais fertilizante nesta terra?, Os princípios persistiram e no início da década de 1950 os cientistas começaram a realizar ensaios clínicos em medicina. Nas décadas de 1960 e 1970, o conceito foi adaptado por profissionais de marketing para avaliar campanhas de resposta direta (por exemplo, um cartão postal ou uma carta para clientes-alvo resultaria em mais vendas?).

A / B testing, em sua forma atual, veio a existir na década de 1990. Fung diz que ao longo do século passado a matemática por trás dos testes não mudou., “São os mesmos conceitos centrais, mas agora você está fazendo isso online, em um ambiente em tempo real, e em uma escala diferente em termos de número de participantes e número de experimentos.”

como funciona o teste A / B?

você inicia um teste A / B decidindo o que você quer testar. O Fung dá um exemplo simples: o tamanho do botão Subscrever no seu site. Então você precisa saber como você quer avaliar seu desempenho. Neste caso, digamos que a sua métrica é o número de visitantes que clicam no botão., Para executar o teste, você mostra dois conjuntos de usuários (atribuídos aleatoriamente quando eles visitam o site) as diferentes versões (onde a única coisa diferente é o tamanho do botão) e determinar o que mais influenciou a sua métrica de sucesso. Neste caso, qual o tamanho do botão que fez mais visitantes clicar?

na vida real há muitas coisas que influenciam se alguém clica. Por exemplo, pode ser que aqueles em um dispositivo móvel são mais propensos a clicar em um determinado botão de tamanho, enquanto aqueles em desktop são desenhados para um tamanho diferente. É aqui que a aleatorização pode ajudar — e é crítica., Ao aleatorizar quais usuários estão em que grupo, você minimiza as chances de que outros fatores, como móvel versus desktop, irá conduzir seus resultados em média.

“o teste A / B pode ser considerado o tipo mais básico de experimento randomizado controlado”, diz Fung. “Em sua forma mais simples, há dois tratamentos e um atua como o controle para o outro.”Como em todas as experiências controladas aleatórias, você deve estimar o tamanho da amostra que você precisa para alcançar um significado estatístico, o que irá ajudá-lo a garantir que o resultado que você está vendo “não é apenas por causa do ruído de fundo”, diz Fung.,

às vezes, você sabe que certas variáveis, geralmente aquelas que não são facilmente manipuladas, têm um forte efeito sobre a métrica de sucesso. Por exemplo, talvez os usuários móveis de seu site tendem a clicar menos em qualquer coisa, em comparação com os usuários de desktop. A aleatorização pode resultar em conjunto a contendo um pouco mais usuários móveis do que o conjunto B, O que pode fazer com que o conjunto a tenha uma taxa de clique mais baixa, independentemente do tamanho do botão que eles estão vendo. Para nivelar o campo de jogo, o analista de teste deve primeiro dividir os usuários por celular e desktop e, em seguida, atribuí-los aleatoriamente para cada versão. Isto chama-se bloqueio.,

O tamanho do botão Subscrever é um exemplo muito básico, diz Fung. Na realidade, você pode não estar testando apenas o tamanho, mas também a cor, e o texto, e o tipo de letra, e o tamanho da fonte. Muitos gerentes executam testes sequenciais — por exemplo, primeiro o tamanho de teste (grande versus pequeno), depois a cor de teste (azul versus vermelho), depois o tipo de teste (vezes versus Arial) – porque acreditam que não devem variar dois ou mais fatores ao mesmo tempo. Mas de acordo com Fung, esse ponto de vista foi desmentido pelos estaticistas., E os testes sequenciais são subóptimos porque não estamos a medir o que acontece quando os factores interagem. Por exemplo, pode ser que os usuários preferem azul em média, mas preferem vermelho quando combinado com Arial. Este tipo de resultado é frequentemente perdido em testes sequenciais A/B porque o teste de tipografia é executado em botões azuis que “ganharam” o teste anterior.em vez disso, Fung diz que você deve fazer testes mais complexos., Isso pode ser difícil para alguns gerentes, uma vez que o apelo dos testes A/B são o quão simples e simples eles são para executar (e muitas pessoas que projetam essas experiências, Fung aponta, não tem um fundo de estatística). “Com testes A / B, Nós tendemos a querer executar um grande número de testes simultâneos e independentes”, diz ele, em grande parte porque a mente bobina no número de combinações possíveis que você pode testar. Mas usando matemática você pode ” escolher e executar com inteligência apenas certos subconjuntos desses tratamentos; então você pode inferir o resto dos dados., Isto é chamado de teste multivariado no mundo de testes A / B e muitas vezes significa que você acaba fazendo um teste A/B/C ou mesmo um teste A/B/C/D. No exemplo acima, com cores e tamanho, isso pode significar, mostrando as diferentes grupos: um grande botão vermelho, um pequeno botão vermelho, um grande botão azul, e um pequeno botão azul. Se você quisesse testar fontes, também, o número de grupos de teste cresceria ainda mais.

como interpreta os resultados de um teste A / B?,

é provável que a sua empresa use software que trate dos cálculos, e pode até empregar um estatístico que possa interpretar esses resultados por si. Mas é útil ter uma compreensão básica de como fazer sentido da saída e decidir se avançar com a variação de teste (o novo botão no exemplo acima).

Fung diz que a maioria dos programas de software relatam duas taxas de conversão para testes A/B: um para os usuários que viram a versão de controle, e o outro para os usuários que viram a versão de teste., “A taxa de conversão pode medir cliques, ou outras ações tomadas pelos usuários”, diz ele. O relatório pode ser assim: “Controle: 15% (+/- 2.1%) variação 18% (+/- 2.3%).”Isto significa que 18% dos seus utilizadores clicaram na nova variação (talvez o seu botão azul maior) com uma margem de erro de 2,3%. Você pode ser tentado a interpretar isso como a taxa de conversão real caindo entre 15,7% e 20,3%, mas isso não seria tecnicamente correto., “A interpretação real é que se você executou seu teste A/B várias vezes, 95% dos intervalos irá capturar a verdadeira taxa de conversão — em outras palavras, a taxa de conversão cai fora da margem de erro 5% do tempo (ou qualquer nível de significância estatística que você definiu)”, explica Fung.se isto é difícil de entender, Junte-se ao Clube. O importante é saber que a taxa de conversão de 18% não é uma garantia. É aqui que entra o Teu julgamento. Uma taxa de conversação de 18% é certamente melhor do que uma de 15%, mesmo tendo em conta a margem de erro (12,9% -17,1% versus 15,7% -20.,3%). Você pode ouvir as pessoas falar sobre isso como um” elevador de 3% ” (elevador é simplesmente a diferença percentual na taxa de conversão entre a sua versão de controle e um tratamento de teste bem sucedido). Neste caso, é muito provável que seja uma boa decisão mudar para a sua nova versão, mas isso dependerá dos custos de implementação da nova versão. Se eles são baixos, você pode experimentar o interruptor e ver o que acontece na realidade (em oposição aos testes). Uma das grandes vantagens para testar no mundo online é que você geralmente pode voltar para o seu original muito facilmente.como as empresas utilizam os testes A / B?,Fung diz que a popularidade da metodologia aumentou à medida que as empresas perceberam que o ambiente on-line é adequado para ajudar os gerentes, especialmente os comerciantes, a responder perguntas como: “o que é mais provável fazer as pessoas clicar? Ou comprar o nosso produto? Ou registar-se no nosso site?”A / B testing is now used to evaluate everything from website design to online offers to headlines to product descriptions. (Na verdade, na semana passada eu olhei para os resultados dos testes A / B na linguagem que usamos para comercializar um novo produto aqui no HBR.,)

A Maioria destes experimentos são realizados sem que os sujeitos sequer saibam. “Como usuário, fazemos parte desses testes o tempo todo e não sabemos”, diz Fung.

E não são apenas sites. Você pode testar e-mails de marketing ou anúncios também. Por exemplo, você pode enviar duas versões de um e-mail para a sua lista de clientes (aleatorizando a lista primeiro, é claro) e descobrir qual gera mais vendas. Então você pode apenas enviar a versão vencedora da próxima vez. Ou você pode testar duas versões de cópia de anúncio e ver qual deles converte os visitantes mais frequentemente., Então você sabe gastar mais para obter o mais bem sucedido lá fora.que erros cometem as pessoas ao fazer testes A / B?eu perguntei ao Fung sobre os erros que ele vê as empresas cometerem ao realizar testes A / B, E ele apontou para três.

primeiro, ele diz, muitos gerentes não deixam os testes executar seu curso. Como a maioria do software para executar estes testes permite que você assista resultados em tempo real, os gerentes querem tomar decisões muito rapidamente., Este erro, ele diz, “evolui por impaciência”, e muitos fornecedores de software têm jogado nesta sobreagrecimento, oferecendo um tipo de teste A/B chamado “otimização em tempo real”, no qual você pode usar algoritmos para fazer ajustes à medida que os resultados chegam. O problema é que, por causa da aleatorização, é possível que se você deixar o teste correr até o seu fim natural, você pode obter um resultado diferente.

O segundo erro é olhar para muitas métricas. “Eu encolho cada vez que vejo software que tenta agradar a todos, dando-lhe um painel de centenas de métricas”, diz ele., O problema é que se você está olhando para um número tão grande de métricas ao mesmo tempo, você está em risco de fazer o que os estatísticos chamam de “correlações espúrias.”Em um projeto de teste adequado”, você deve decidir sobre as métricas que você vai olhar antes de executar uma experiência e selecionar algumas. Quanto mais Medes, mais provável é que vejas flutuações aleatórias.”Com tantas métricas, em vez de se perguntar, o que está a acontecer com esta variável?”você está perguntando,” que mudanças interessantes (e potencialmente insignificantes) estou vendo?,por último, Fung diz que poucas empresas fazem testes suficientes. “Tendemos a testá-la uma vez e depois acreditamos nela. Mas mesmo com um resultado estatisticamente significativo, há uma grande probabilidade de erro falso positivo. A menos que volte a fazer o teste de vez em quando, não exclui a possibilidade de estar errado.”Falsos positivos podem ocorrer por várias razões. Por exemplo, mesmo que haja pouca chance de que qualquer resultado A/B dado seja conduzido por acaso Aleatório, se você fizer lotes de testes A/B, as chances de que pelo menos um de seus resultados está errado cresce rapidamente.,isto pode ser particularmente difícil de fazer porque é provável que os gerentes acabem com resultados contraditórios, e ninguém quer descobrir que eles minaram descobertas anteriores, especialmente no mundo online, onde os gerentes querem fazer mudanças — e capturar valor — rapidamente. Mas este foco no valor pode ser equivocado, Fung diz: “as pessoas não são muito vigilantes sobre o valor prático das descobertas. Eles querem acreditar que cada pequena quantidade de melhoria é valiosa, mesmo quando os resultados do teste não são totalmente confiáveis., Na verdade, quanto menor a melhoria, menos confiáveis os resultados.”

é evidente que os testes A / B não são uma panaceia. Existem tipos mais complexos de experimentos que são mais eficientes e lhe darão dados mais confiáveis, diz Fung. Mas teste A / B é uma ótima maneira de obter uma compreensão rápida de uma pergunta que você tem. E “a boa notícia sobre o mundo de testes A / B é que tudo acontece tão rapidamente, então se você o executar e não funcionar, você pode tentar outra coisa. Podes sempre voltar à velha táctica.”

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *