Что такое стратификация

«Что такое стратификация» — вопрос из категории Статистика и теория вероятностей, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Стратификация — это метод разбиения данных на подгруппы (страты) перед выборкой или анализом. Страты формируются на основе ключевых признаков (например, возраст, доход, регион), чтобы каждая группа была репрезентативной для генеральной совокупности.

Зачем нужна:

  • Уменьшает дисперсию оценок.
  • Гарантирует, что редкие группы будут представлены.
  • Улучшает точность A/B-тестов.

Пример в Python:

from sklearn.model_selection import train_test_split  

# Стратифицированное разбиение по целевой переменной  
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

Применение:

  • В медицине для балансировки групп пациентов.
  • В маркетинге для разделения аудитории.
  • В ML для сохранения распределения классов.