Ответ
При оценке эксперимента важно анализировать не только целевые, но и смежные метрики. Вот ключевые подходы:
-
Определение guardrail-метрик — ключевые показатели, которые не должны ухудшаться (например, retention, revenue, crash rate). Их нужно мониторить параллельно с основными.
-
Статистическая значимость — проверяйте не только улучшение основной метрики, но и отсутствие значимого ухудшения других (t-test, Mann-Whitney).
-
Сегментный анализ — разбивайте данные на группы (новые/старые пользователи, платформы), чтобы выявить скрытые эффекты.
Пример проверки в Python:
from scipy import stats
# Проверка изменения retention между контрольной и тестовой группой
control_retention = [0.65, 0.63, 0.64]
test_retention = [0.64, 0.62, 0.61]
p_value = stats.ttest_ind(control_retention, test_retention).pvalue
if p_value < 0.05 and test_retention.mean() < control_retention.mean():
print("⚠️ Ухудшение retention статистически значимо")
-
Длительность эксперимента — некоторые эффекты проявляются со временем (например, усталость от новых фич).
-
Корреляционный анализ — проверьте, не связано ли улучшение одной метрики с ухудшением другой.