Un recyclage sur les tests A/B

tout est une question de données de nos jours. Les dirigeants ne veulent pas prendre de décisions à moins d’avoir des preuves. C’est une bonne chose, bien sûr, et heureusement, il existe de nombreuses façons d’obtenir des informations sans avoir à se fier à son instinct. L’une des méthodes les plus courantes, en particulier dans les paramètres en ligne, est le test A/B.,

pour mieux comprendre ce qu’est le test A / B, d’où il provient et comment l’utiliser, j’ai parlé avec Kaiser Fung, qui a fondé le programme d’analyse appliquée à L’Université Columbia et est l’auteur de Junk Charts, un blog consacré à l’examen critique des données et des graphiques dans les médias de masse. Son dernier livre est Number Sense: Comment utiliser le Big Data à votre avantage.

Qu’est-ce que les tests A/B?

le test A / B, à sa base, est un moyen de comparer deux versions de quelque chose pour déterminer laquelle fonctionne le mieux., Bien qu’il soit le plus souvent associé à des sites Web et des applications, Fung dit que la méthode a presque 100 ans.

dans les années 1920, le statisticien et biologiste Ronald Fisher a découvert les principes les plus importants derrière les tests A / B et les expériences contrôlées randomisées en général. « Il n’a pas été le premier à mener une expérience comme celle-ci, mais il a été le premier à comprendre les principes de base et les mathématiques et à en faire une science”, explique Fung.

Fisher a mené des expériences agricoles, posant des questions telles que: Que se passe-t-il si je mets plus d’engrais sur cette terre?, Les principes ont persisté et au début des années 1950, les scientifiques ont commencé à mener des essais cliniques en médecine. Dans les années 1960 et 1970, le concept a été adapté par les spécialistes du marketing pour évaluer les campagnes de réponse directe (par exemple, une carte postale ou une lettre destinée aux clients cibles entraînerait-elle plus de ventes?).

Les tests A / B, dans leur forme actuelle, ont vu le jour dans les années 1990. Fung dit que tout au long du siècle dernier, les mathématiques derrière les tests n’ont pas changé., « Ce sont les mêmes concepts de base, mais maintenant vous le faites en ligne, dans un environnement en temps réel, et à une échelle différente en termes de nombre de participants et de nombre d’expériences. »

Comment fonctionne le test A/B?

Vous commencez un test A / B en décidant de ce que vous voulez tester. Fung donne un exemple simple: la taille du bouton d’abonnement sur votre site web. Ensuite, vous devez savoir comment vous voulez évaluer ses performances. Dans ce cas, disons que votre métrique est le nombre de visiteurs qui cliquent sur le bouton., Pour exécuter le test, vous montrez à deux ensembles d’utilisateurs (assignés au hasard lorsqu’ils visitent le site) les différentes versions (où la seule chose différente est la taille du bouton) et déterminez laquelle a le plus influencé votre mesure de succès. Dans ce cas, quelle taille de bouton a incité plus de visiteurs à cliquer?

dans la vraie vie, il y a beaucoup de choses qui influencent le fait que quelqu’un clique. Par exemple, il se peut que ceux sur un appareil mobile soient plus susceptibles de cliquer sur un bouton de taille donnée, tandis que ceux sur le bureau sont dessinés à une taille différente. C’est là que la randomisation peut aider — et est critique., En randomisant quels utilisateurs se trouvent dans quel groupe, vous minimisez les chances que d’autres facteurs, comme le mobile par rapport au bureau, conduisent vos résultats en moyenne.

« le test A/B peut être considéré comme le type d’expérience contrôlée randomisée le plus élémentaire”, dit Fung. « Dans sa forme la plus simple, il existe deux traitements et l’un agit comme le contrôle de l’autre. »Comme pour toutes les expériences contrôlées randomisées, vous devez estimer la taille de l’échantillon dont vous avez besoin pour obtenir une signification statistique, ce qui vous aidera à vous assurer que le résultat que vous voyez « n’est pas seulement dû au bruit de fond”, dit Fung.,

parfois, vous savez que certaines variables, généralement celles qui ne sont pas facilement manipulées, ont un fort effet sur la mesure de succès. Par exemple, peut-être que les utilisateurs mobiles de votre site Web ont tendance à moins cliquer sur quoi que ce soit, par rapport aux utilisateurs de bureau. La randomisation peut entraîner l’ensemble A contenant un peu plus d’utilisateurs mobiles que L’ensemble B, ce qui peut entraîner un taux de clic inférieur à l’ensemble a, quelle que soit la taille du bouton qu’ils voient. Pour uniformiser les règles du jeu, l’analyste de test doit d’abord diviser les utilisateurs par mobile et ordinateur de bureau, puis les attribuer au hasard à chaque version. Cela s’appelle de blocage.,

la taille du bouton s’abonner est un exemple très basique, dit Fung. En réalité, vous ne testez peut-être pas uniquement la taille, mais également la couleur, le texte, la police de caractères et la taille de police. De nombreux gestionnaires exécutent des tests séquentiels — par exemple, tester d’abord la taille (grande par rapport à petite), puis tester la couleur (bleu par rapport au rouge), puis tester la police de caractères (Times par rapport à Arial) – parce qu’ils pensent qu’ils ne devraient pas varier deux facteurs ou plus en même temps. Mais selon Fung, ce point de vue a été démystifié par les statisticiens., Et les tests séquentiels sont sous-optimaux car vous ne mesurez pas ce qui se passe lorsque les facteurs interagissent. Par exemple, il se peut que les utilisateurs préfèrent le bleu en moyenne mais préfèrent le rouge lorsqu’il est combiné avec Arial. Ce type de résultat est régulièrement manqué dans les tests A/B séquentiels car le test de police de caractères est exécuté sur des boutons bleus qui ont « gagné” le test précédent.

Au Lieu de cela, Fung dit, vous devriez exécuter des tests plus complexes., Cela peut être difficile pour certains gestionnaires, car l’attrait des tests A/B est leur simplicité et leur simplicité à exécuter (et de nombreuses personnes qui conçoivent ces expériences, souligne Fung, n’ont pas de connaissances en statistiques). « Avec les tests A / B, Nous avons tendance à vouloir exécuter un grand nombre de tests simultanés et indépendants”, dit-il, en grande partie parce que l’esprit tourne au nombre de combinaisons possibles que vous pouvez tester. Mais en utilisant les mathématiques, vous pouvez « intelligemment choisir et exécuter certains sous-ensembles de ces traitements; ensuite, vous pouvez déduire le reste des données., »Cela s’appelle des tests « multivariés » dans le monde des tests A/B et signifie souvent que vous finissez par faire un test A/B/C ou même un test A/B/C/D. Dans l’exemple ci-dessus avec les couleurs et la taille, elle pourrait signifier montrant les différents groupes: un gros bouton rouge, un petit bouton rouge, un gros bouton bleu, et un petit bouton bleu. Si vous vouliez également tester des polices, le nombre de groupes de test augmenterait encore plus.

Comment Interprétez-Vous les Résultats d’Un Test a/B?,

Il y a de fortes Chances que votre entreprise utilise un logiciel qui gère les calculs, et elle peut même employer un statisticien qui peut interpréter ces résultats pour vous. Mais il est utile d’avoir une compréhension de base de la façon de donner un sens à la sortie et de décider d’aller de l’avant avec la variation de test (le nouveau bouton dans l’exemple ci-dessus).

Fung dit que la plupart des logiciels rapportent deux taux de conversion pour les tests A / B: Un pour les utilisateurs qui ont vu la version de contrôle, et l’autre pour les utilisateurs qui ont vu la version de test., « Le taux de conversion peut mesurer les clics ou d’autres actions entreprises par les utilisateurs”, dit-il. Le rapport pourrait ressembler à ceci: « le Contrôle: 15% (+/- 2.1%) Variation 18% (+/- 2.3%).” Cela signifie que 18% de vos utilisateurs ont cliqué sur la nouvelle variation (peut-être votre plus grand bouton bleu) avec une marge d’erreur de 2.3%. Vous pourriez être tenté d’interpréter cela comme le taux de conversion réel tombant entre 15.7% et 20.3%, mais ce ne serait pas techniquement correct., « La véritable interprétation est que si vous exécutez votre test A/B plusieurs fois, 95% des plages captureront le taux de conversion réel — en d’autres termes, le taux de conversion ne dépasse pas la marge d’erreur 5% du temps (ou quel que soit le niveau de signification statistique que vous avez défini)”, explique Fung.

si cela est difficile à envelopper votre tête, Rejoignez le club. Ce qui est important de savoir, c’est que le taux de conversion de 18% n’est pas une garantie. C’est là que votre jugement entre en jeu. Un taux de conversation de 18% est certainement meilleur qu’un taux de conversation de 15%, même en tenant compte de la marge d’erreur (12,9% -17,1% contre 15,7% -20.,3%). Vous pourriez entendre les gens parler de cela comme d’une « augmentation de 3% » (la hausse est simplement la différence de pourcentage dans le taux de conversion entre votre version de contrôle et un traitement de test réussi). Dans ce cas, c’est probablement une bonne décision pour passer à la nouvelle version, mais cela dépendra des coûts de mise en œuvre de la nouvelle version. S’ils sont bas, vous pouvez essayer le commutateur et voir ce qui se passe en réalité (par opposition aux tests). L’un des grands avantages de tester dans le monde en ligne est que vous pouvez généralement revenir à votre original assez facilement.

comment les entreprises utilisent-elles les tests A/B?,

Fung dit que la popularité de la méthodologie a augmenté à mesure que les entreprises ont réalisé que l’environnement en ligne est bien adapté pour aider les gestionnaires, en particulier les spécialistes du marketing, à répondre à des questions telles que: « Qu’est-ce qui est le plus susceptible de faire cliquer les gens? Ou acheter notre produit? Ou de vous inscrire sur notre site? »Les tests A / B sont maintenant utilisés pour évaluer tout, de la conception de sites web aux offres en ligne, en passant par les titres et les descriptions de produits. (En fait, la semaine dernière, j’ai regardé les résultats des tests A/B sur la langue que nous utilisons pour commercialiser un nouveau produit ici chez HBR.,)

La Plupart de ces expériences se déroulent sans même que les sujets le sachent. « En tant qu’utilisateur, nous faisons tout le temps partie de ces tests et ne le savons pas”, explique Fung.

et ce ne sont pas seulement des sites web. Vous pouvez tester les e-mails marketing ou annonces. Par exemple, vous pouvez envoyer deux versions d’un e-mail à votre liste de clients (en randomisant d’abord la liste, bien sûr) et déterminer laquelle génère le plus de ventes. Ensuite, vous pouvez simplement envoyer la version gagnante prochaine fois. Vous pouvez également tester deux versions de ad copy Et Voir laquelle convertit le plus souvent les visiteurs., Ensuite, vous savez dépenser plus pour obtenir le plus de succès là-bas.

quelles erreurs les gens font-ils lors des Tests A/B?

j’ai interrogé Fung sur les erreurs qu’il voit les entreprises faire lors de l’exécution de tests A/B, et il a souligné trois points communs.

premièrement, dit-il, trop de gestionnaires ne laissent pas les tests suivre leur cours. Parce que la plupart des logiciels pour exécuter ces tests vous permettent de regarder les résultats en temps réel, les gestionnaires veulent prendre des décisions trop rapidement., Cette erreur, dit-il, « évolue par impatience”, et de nombreux éditeurs de logiciels ont joué dans cette surenchère en offrant un type de test A/B appelé « optimisation en temps réel”, dans lequel vous pouvez utiliser des algorithmes pour effectuer des ajustements au fur et à mesure que les résultats arrivent. Le problème est que, en raison de la randomisation, il est possible que si vous laissez le test s’exécuter à sa fin naturelle, vous obteniez un résultat différent.

la deuxième erreur est de regarder trop de métriques. « Je grince des dents chaque fois que je vois un logiciel qui essaie de plaire à tout le monde en vous donnant un panel de centaines de mesures”, dit-il., Le problème est que si vous examinez un si grand nombre de mesures en même temps, vous risquez de créer ce que les statisticiens appellent des « corrélations fallacieuses ».” Bon test », vous devez décider sur les mesures que vous allez regarder avant d’exécuter une expérience et en sélectionner que quelques-uns. Plus vous mesurez, plus vous avez de chances de voir des fluctuations aléatoires. »Avec autant de métriques, au lieu de vous demander: » que se passe – t-il avec cette variable? »vous demandez: » quels changements intéressants (et potentiellement insignifiants) suis-je en train de voir?, »

enfin, Fung dit que peu d’entreprises font suffisamment de retest. « Nous avons tendance à le tester une fois et ensuite nous le croyons. Mais même avec un résultat statistiquement significatif, il y a une probabilité assez grande d’erreur faussement positive. Sauf si vous retestez de temps en temps, vous n’excluez pas la possibilité de vous tromper. »Les faux positifs peuvent survenir pour plusieurs raisons. Par exemple, même s’il y a peu de chances qu’un résultat A/B donné soit motivé par un hasard aléatoire, si vous faites beaucoup de tests A/B, les chances qu’au moins un de vos résultats soit erroné augmentent rapidement.,

cela peut être particulièrement difficile à faire car il est probable que les gestionnaires se retrouveraient avec des résultats contradictoires, et personne ne veut découvrir qu’ils ont miné les résultats précédents, en particulier dans le monde en ligne, où les gestionnaires veulent apporter des changements — et capturer de la valeur — rapidement. Mais cette focalisation sur la valeur peut être erronée, dit Fung: « les gens ne sont pas très vigilants quant à la valeur pratique des résultats. Ils veulent croire que chaque petite quantité d’amélioration est précieuse même lorsque les résultats des tests ne sont pas entièrement fiables., En fait, plus l’amélioration est faible, moins les résultats sont fiables.”

il est clair que les tests A/B ne sont pas une panacée. Il existe des types d’expériences plus complexes qui sont plus efficaces et vous donneront des données plus fiables, dit Fung. Mais les tests A / B sont un excellent moyen de comprendre rapidement une question que vous avez. Et » la bonne nouvelle à propos du monde des tests A/B est que tout se passe si rapidement, donc si vous l’exécutez et que cela ne fonctionne pas, vous pouvez essayer autre chose. Vous pouvez toujours revenir à l’ancienne tactique.”