Какие знаешь критерии соответствия данных T-тесту

«Какие знаешь критерии соответствия данных T-тесту» — вопрос из категории Статистика, который задают на 25% собеседований Продукт Менеджер. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

T-тест применяется для сравнения средних значений двух групп. Основные критерии соответствия данных:

  1. Нормальность распределения – данные должны быть нормально распределены (проверяется тестами Шапиро-Уилка или Колмогорова-Смирнова). Для больших выборок (>30) требование смягчается.

  2. Однородность дисперсий – дисперсии групп должны быть равны (проверяется F-тестом или Левене). Если дисперсии неравны, используется t-тест Уэлча.

  3. Независимость наблюдений – данные в группах не должны быть связаны (для парного t-теста – наоборот, нужна парность).

  4. Количественный тип данных – зависимая переменная должна быть непрерывной.

Пример проверки нормальности в Python:

from scipy.stats import shapiro
stat, p = shapiro(data)
if p > 0.05:
    print("Нормальное распределение")