Ответ
Для оценки A/B-тестов чаще всего использую статистическую значимость (p-value < 0.05) и размер эффекта (effect size). Также смотрю на доверительные интервалы метрик, чтобы оценить диапазон возможных значений.
Пример кода для проверки значимости в Python:
from scipy import stats
import numpy as np
# Группы A и B
group_a = np.random.normal(100, 15, 1000)
group_b = np.random.normal(105, 15, 1000)
# T-test
t_stat, p_value = stats.ttest_ind(group_a, group_b)
print(f"p-value: {p_value:.4f}") # Если < 0.05, разница значима
Дополнительно учитываю практическую значимость (например, рост конверсии на 2% может быть статистически значимым, но не окупать затраты).