Какой критерий обычно используешь

«Какой критерий обычно используешь» — вопрос из категории Статистика и проверка гипотез, который задают на 38% собеседований Продуктовый Аналитик. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Для оценки A/B-тестов чаще всего использую статистическую значимость (p-value < 0.05) и размер эффекта (effect size). Также смотрю на доверительные интервалы метрик, чтобы оценить диапазон возможных значений.

Пример кода для проверки значимости в Python:

from scipy import stats
import numpy as np

# Группы A и B
group_a = np.random.normal(100, 15, 1000)
group_b = np.random.normal(105, 15, 1000)

# T-test
t_stat, p_value = stats.ttest_ind(group_a, group_b)
print(f"p-value: {p_value:.4f}")  # Если < 0.05, разница значима

Дополнительно учитываю практическую значимость (например, рост конверсии на 2% может быть статистически значимым, но не окупать затраты).