Un repaso sobre las pruebas A / B

todo se trata de datos en estos días. Los líderes no quieren tomar decisiones a menos que tengan pruebas. Eso es algo bueno, por supuesto, y afortunadamente hay muchas maneras de obtener información sin tener que depender de los instintos. Uno de los métodos más comunes, particularmente en la configuración en línea, es la prueba A / B.,

para entender mejor qué es el testing A/B, dónde se originó y cómo usarlo, hablé con Kaiser Fung, quien fundó el programa de análisis aplicado en la Universidad de Columbia y es autor de Junk Charts, un blog dedicado al examen crítico de datos y gráficos en los medios de comunicación. Su último libro es Number Sense: How to Use Big Data to Your Advantage.

¿Qué es la prueba A/B?

las pruebas A/B, en su forma más básica, son una forma de comparar dos versiones de algo para averiguar cuál funciona mejor., Si bien se asocia con mayor frecuencia con sitios web y aplicaciones, Fung dice que el método tiene casi 100 años.

en la década de 1920, el estadístico y biólogo Ronald Fisher descubrió los principios más importantes detrás de las pruebas A/B y los experimentos controlados aleatorios en general. «No fue el PRIMERO en llevar a cabo un experimento como este, pero fue el PRIMERO en descubrir los principios básicos y las matemáticas y convertirlos en una ciencia», dice Fung.

Fisher realizó experimentos agrícolas, haciendo preguntas como, ¿Qué pasa si pongo más fertilizante en esta tierra?, Los principios persistieron y a principios de la década de 1950 los científicos comenzaron a realizar ensayos clínicos en medicina. En las décadas de 1960 y 1970, el concepto fue adaptado por los vendedores para evaluar las campañas de respuesta directa (por ejemplo, ¿una postal o una carta a los clientes objetivo daría como resultado más ventas?).

Las pruebas A / B, en su forma actual, comenzaron a existir en la década de 1990. Fung dice que a lo largo del siglo pasado las matemáticas detrás de las pruebas no han cambiado., «Son los mismos conceptos básicos, pero ahora lo estás haciendo en línea, en un entorno en tiempo real, y en una escala diferente en términos de número de participantes y número de experimentos.»

¿cómo funciona la prueba A/B?

comienzas una prueba A / B decidiendo qué es lo que quieres probar. Fung da un ejemplo simple: el tamaño del botón de Suscripción en su sitio web. Entonces necesitas saber cómo quieres evaluar su rendimiento. En este caso, digamos que su métrica es el número de visitantes que hacen clic en el botón., Para ejecutar la prueba, debe mostrar dos conjuntos de usuarios (asignados al azar cuando visitan el sitio) las diferentes versiones (donde lo único diferente es el tamaño del botón) y determinar cuál influyó más en su métrica de éxito. En este caso, ¿qué tamaño de botón causó que más visitantes hicieran clic?

en la vida real hay muchas cosas que influyen en si alguien hace clic. Por ejemplo, puede ser que aquellos en un dispositivo móvil tengan más probabilidades de hacer clic en un botón de cierto tamaño, mientras que aquellos en el escritorio se dibujan a un tamaño diferente. Aquí es donde la aleatorización puede ayudar, y es fundamental., Al aleatorizar qué usuarios están en qué grupo, minimizas las posibilidades de que otros factores, como el móvil frente al escritorio, impulsen tus resultados en promedio.

«la prueba A/B puede considerarse el tipo más básico de experimento controlado aleatorio», dice Fung. «En su forma más simple, hay dos tratamientos y uno actúa como el control del otro.»Al igual que con todos los experimentos controlados aleatorios, debe estimar el tamaño de la muestra que necesita para lograr una significación estadística, lo que le ayudará a asegurarse de que el resultado que está viendo» no es solo debido al ruido de fondo», dice Fung.,

a veces, sabes que ciertas variables, generalmente aquellas que no se manipulan fácilmente, tienen un fuerte efecto en la métrica de éxito. Por ejemplo, tal vez los usuarios móviles de su sitio web tienden a hacer menos clic en cualquier cosa, en comparación con los usuarios de escritorio. La aleatorización puede resultar en que el conjunto a contenga un poco más de usuarios móviles que el conjunto B, lo que puede hacer que el conjunto a tenga una tasa de clics más baja, independientemente del tamaño del botón que estén viendo. Para nivelar el campo de juego, el analista de pruebas primero debe dividir a los usuarios por móvil y escritorio y luego asignarlos aleatoriamente a cada versión. Esto se llama Bloqueo.,

El tamaño del botón de suscripción es un ejemplo muy básico, dice Fung. En realidad, es posible que no esté probando solo el tamaño, sino también el color, el texto, el tipo de letra y el tamaño de fuente. Muchos gerentes ejecutan pruebas secuenciales, por ejemplo, primero probando el tamaño (grande versus pequeño), luego probando el color (azul versus rojo) y luego probando el tipo de letra (veces versus Arial), porque creen que no deben variar dos o más factores al mismo tiempo. Pero según Fung, esa opinión ha sido desacreditada por los estadísticos., Y las pruebas secuenciales son subóptimas porque no estás midiendo lo que sucede cuando los factores interactúan. Por ejemplo, puede ser que los usuarios prefieran el azul en promedio, pero prefieren el rojo cuando se combina con Arial. Este tipo de resultado se pierde regularmente en las pruebas secuenciales A/B porque la prueba de tipo de letra se ejecuta en botones azules que han «ganado» la prueba anterior.

en su lugar, Fung dice, debería realizar pruebas más complejas., Esto puede ser difícil para algunos gerentes, ya que el atractivo de las pruebas A/B es cuán sencillas y sencillas son de ejecutar (y muchas personas que diseñan estos experimentos, señala Fung, no tienen antecedentes estadísticos). «Con las pruebas A/B, tendemos a querer ejecutar un gran número de pruebas simultáneas e independientes», dice, en gran parte porque la mente se tambalea en el número de combinaciones posibles que puede probar. Pero usando matemáticas puedes » elegir y ejecutar inteligentemente solo ciertos subconjuntos de esos tratamientos; luego puedes inferir el resto a partir de los datos.,»Esto se llama prueba «multivariante» en el mundo de las pruebas A/B y a menudo significa que terminas haciendo una prueba A/B/C o incluso una prueba a/B/C/D. En el ejemplo anterior con colores y tamaño, podría significar mostrar diferentes grupos: un botón rojo grande, un botón rojo pequeño, un botón azul grande y un botón azul pequeño. Si también quisieras probar fuentes, el número de grupos de prueba crecería aún más.

¿Cómo Interpretar los Resultados de Un Test a/B?,

Lo más probable es que su empresa utilice un software que maneje los cálculos, e incluso puede emplear a un estadístico que pueda interpretar esos resultados por usted. Pero es útil tener una comprensión básica de cómo dar sentido a la salida y decidir si seguir adelante con la variación de prueba (el nuevo botón en el ejemplo anterior).

Fung dice que la mayoría de los programas de software reportan dos tasas de conversión para las pruebas A/B: una para los usuarios que vieron la versión de control, y la otra para los usuarios que vieron la versión de prueba., «La tasa de conversión puede medir los clics u otras acciones tomadas por los usuarios», dice. El informe podría tener este aspecto: «Control: 15% (+/- 2.1%) variación 18% (+/- 2.3%).»Esto significa que el 18% de sus usuarios hicieron clic en la nueva variación (tal vez su botón azul más grande) con un margen de error del 2.3%. Usted podría estar tentado a interpretar esto como la tasa de conversión real cayendo entre 15.7% y 20.3%, pero eso no sería técnicamente correcto., «La interpretación real es que si ejecuta su prueba a/B varias veces, el 95% de los rangos capturará la verdadera tasa de conversión, en otras palabras, la tasa de conversión cae fuera del margen de error el 5% del tiempo (o cualquier nivel de significación estadística que haya establecido)», explica Fung.

si esto es difícil de entender, únete al club. Lo que es importante saber es que la tasa de conversión del 18% no es una garantía. Aquí es donde entra Tu juicio. Una tasa de conversación del 18% es ciertamente mejor que una del 15%, incluso teniendo en cuenta el margen de error (12.9% -17.1% versus 15.7% -20.,3%). Es posible que escuche a la gente hablar de esto como una «elevación del 3%» (elevación es simplemente la diferencia porcentual en la tasa de conversión entre su versión de control y un tratamiento de prueba exitoso). En este caso, lo más probable es que sea una buena decisión cambiar a su nueva versión, pero eso dependerá de los costos de implementación de la nueva versión. Si son bajos, puede probar el interruptor y ver qué sucede en la realidad (en lugar de en las pruebas). Una de las grandes ventajas de las pruebas en el mundo en línea es que generalmente puede volver a su original con bastante facilidad.

¿cómo utilizan las empresas las pruebas A/B?,

Fung dice que la popularidad de la metodología ha aumentado a medida que las empresas se han dado cuenta de que el entorno en línea es adecuado para ayudar a los gerentes, especialmente a los marketers, a responder preguntas como: «¿Qué es más probable que haga que la gente haga clic? O comprar nuestro producto? O registrarse en nuestro sitio?»Las pruebas A / B ahora se utilizan para evaluar todo, desde el diseño de sitios web hasta las ofertas en línea, los titulares y las descripciones de productos. (De hecho, la semana pasada miré los resultados de las pruebas A/B en el idioma que usamos para comercializar un nuevo producto aquí en HBR.,)

La mayoría de estos experimentos se ejecutan sin que los sujetos lo sepan. «Como usuario, somos parte de estas pruebas todo el tiempo y no lo sabemos», dice Fung.

y no son solo sitios web. También puedes probar correos electrónicos o anuncios de marketing. Por ejemplo, puede enviar dos versiones de un correo electrónico a su lista de clientes (aleatorizando la lista primero, por supuesto) y averiguar cuál genera más ventas. Entonces puedes enviar la versión ganadora la próxima vez. O puede probar dos versiones de ad copy y ver cuál convierte a los visitantes con más frecuencia., Entonces usted sabe gastar más conseguir el más exitoso por ahí.

¿qué errores cometen las personas al hacer pruebas A / B?

le pregunté a Fung sobre los errores que ve que cometen las empresas al realizar pruebas A / B, y señaló tres comunes.

primero, dice, demasiados gerentes no dejan que las pruebas sigan su curso. Debido a que la mayoría del software para ejecutar estas pruebas le permite ver los resultados en tiempo real, los gerentes quieren tomar decisiones demasiado rápido., Este error, dice,» evoluciona por impaciencia», y muchos proveedores de software han jugado en este exceso al ofrecer un tipo de prueba A/B llamada» optimización en tiempo real», en la que puede usar algoritmos para hacer ajustes a medida que llegan los resultados. El problema es que, debido a la aleatorización, es posible que si dejas que la prueba se ejecute a su final natural, podrías obtener un resultado diferente.

El segundo error es mirar demasiadas métricas. «Me estremezco cada vez que veo un software que trata de complacer a todos al darle un panel de cientos de métricas», dice., El problema es que si estás mirando un número tan grande de métricas al mismo tiempo, estás en riesgo de hacer lo que los estadísticos llaman «correlaciones espurias».»En un diseño de prueba adecuado», debes decidir las métricas que vas a ver antes de ejecutar un experimento y seleccionar algunas. Cuanto más estás midiendo, más probable es que vas a ver fluctuaciones aleatorias.»Con tantas métricas, en lugar de preguntarte, «¿qué está pasando con esta variable?»estás preguntando,» ¿qué cambios interesantes (y potencialmente insignificantes) estoy viendo?,»

Por último, Fung dice que pocas empresas hacen suficientes pruebas. «Tendemos a probarlo una vez y luego lo creemos. Pero incluso con un resultado estadísticamente significativo, hay una probabilidad bastante grande de error falso positivo. A menos que vuelva a probar de vez en cuando, no descarta la posibilidad de estar equivocado.»Los falsos positivos pueden ocurrir por varias razones. Por ejemplo, a pesar de que puede haber pocas posibilidades de que cualquier resultado A/B dado sea impulsado por el azar, si haces muchas pruebas A/B, las posibilidades de que al menos uno de tus resultados sea incorrecto crecen rápidamente.,

esto puede ser particularmente difícil de hacer porque es probable que los gerentes terminen con resultados contradictorios, y nadie quiere descubrir que han socavado los hallazgos anteriores, especialmente en el mundo en línea, donde los gerentes quieren hacer cambios y capturar valor rápidamente. Pero este enfoque en el valor puede ser erróneo, dice Fung: «las personas no están muy vigilantes sobre el valor práctico de los hallazgos. Quieren creer que cada pequeña cantidad de mejora es valiosa incluso cuando los resultados de las pruebas no son completamente confiables., De hecho, cuanto menor sea la mejora, menos fiables serán los resultados.»

está claro que las pruebas A / B no son una panacea. Hay tipos más complejos de experimentos que son más eficientes y le darán datos más confiables, dice Fung. Pero las pruebas A / B son una gran manera de obtener una comprensión rápida de una pregunta que tiene. Y «la buena noticia sobre el mundo de las pruebas A / B es que todo sucede tan rápido, por lo que si lo ejecuta y no funciona, puede probar otra cosa. Siempre puedes volver a la vieja táctica.”