Ответ
При отборе кандидатов для проверки гипотезы использовал сегментацию аудитории по ключевым метрикам (например, активность, демография, поведение).
Пример:
# Фильтрация пользователей с высокой вовлечённостью (≥3 сеанса/неделю)
high_engagement_users = df_users[
(df_users['sessions_per_week'] >= 3) &
(df_users['cohort'] == '2024-Q1')
].sample(n=1000)
Критерии:
- Репрезентативность — выборка отражает целевую аудиторию.
- Минимизация шума — исключал пользователей с аномалиями (например, ботов).
- Рандомизация — A/B-тест с равномерным распределением в контрольную и тестовую группы.
Для сложных гипотез (например, изменение монетизации) добавлял стратификацию по доходу или гео.