¿Por qué analizar resultados de A/B Test usando métricas de usuarios y no de sesión?

<aside> 📝 Borrador - User Based A/B Test Analysis

</aside>

Una herramienta de experimentación correctamente calibrada debería exponer, a un usuario, una sola variante en todas las sesiones que este genere. Es decir, un usuario no debería ver la versión de control en una sesión y, en otra sesión, la variante del experimento.

Asumiendo esto, podemos generar la siguiente tabla con la simulación de comportamiento de distintos usuarios expuestos a un experimento:

Simulación de comportamiento de usuarios en experimento

Con esta simulación, podemos hacer un recuento en base a usuarios y sesiones:

Experiment Bucket	Usuarios únicos	Usuarios con conversión	Sesiones	Sesiones con conversión
Control	3	3	7	3
Variante	3	2	8	6

En base a los resultados anteriores, podemos calcular la tasa de conversión por ambos tipos de scope:

Experiment Bucket	Tasa de conversión en base a Usuarios
Control	100%
Variante	67%
Resultado:	Perdedor

| Experiment

Bucket	Tasa de conversión en base a Sesiones
Control	43%
Variante	75%
Resultado:	Ganador

Untitled

Como se puede observar, el cálculo en base a usuarios ha obtenido un resultado negativo para la variante y el cálculo en base a sesiones, un resultado positivo (muy probablemente un falso positivo).

Si revisamos la tabla con la simulación del experimentos, podemos ver que este último resultado fue dado por las múltiples conversiones que generaron los usuarios “B” y “D” en distintas sesiones, inflando el número de conversiones atribuidas a la variante.

Por la naturaleza de los experimentos, no siempre tendrá valor contabilizar múltiples sesiones o conversiones de un mismo usuario, pues la mayor parte de las veces se busca analizar si la variante influyó o no en la experiencia de ese usuario y no cuantas veces lo realizó. Es decir, se busca un resultado binario.

Los A/A test (control vs variante sin ningún tipo de modificación) sirven para verificar que todo ande en orden al momento de ejecutar experimentos y las métricas no resulten sesgadas. towardsdatascience.com realizó una comparación de la distribución de p-values en distintos A/A tests y muestra cómo el uso métricas de sesiones puede presentar resultados sesgados, mientras que el uso de métricas de usuarios no entrega resultados dispares.