Что такое ошибка второго рода?

Question

Что такое ошибка второго рода?

Тип вопроса: Статистика и теория вероятностей Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Ошибка второго рода (Type II error, ложноотрицательная ошибка) — это статистическая ошибка, которая возникает, когда нулевая гипотеза (H₀) не отвергается, хотя на самом деле она ложна. Другими словами, это пропуск существующего эффекта или различия.

Вероятность ошибки обозначается как β.
Мощность теста (1 - β) — это вероятность корректно отвергнуть ложную нулевую гипотезу, то есть обнаружить эффект, если он есть.

Практический пример (A/B-тест): Допустим, мы тестируем новую версию сайта (B) против старой (A). Нулевая гипотеза (H₀): конверсия версии B не выше, чем у A. Если на самом деле версия B лучше, но наш тест этого не показал (мы приняли H₀), мы совершили ошибку второго рода — упустили улучшение.

# Пример расчета мощности теста (вероятности избежать ошибки II рода)
from statsmodels.stats.power import TTestIndPower

# Параметры: размер эффекта (effect_size), уровень значимости (alpha), размер выборки (nobs)
effect_size = 0.5  # Средний размер эффекта
alpha = 0.05        # Вероятность ошибки I рода (5%)
nobs = 50           # Наблюдений в каждой группе

# Создаем объект для расчета мощности
power_analysis = TTestIndPower()
power = power_analysis.power(effect_size=effect_size, nobs1=nobs, alpha=alpha, ratio=1.0)

print(f'Мощность теста (1 - β): {power:.2%}')  # Например, 70.4%
print(f'Вероятность ошибки II рода (β): {(1 - power):.2%}')  # Например, 29.6%

Как снизить β (вероятность ошибки II рода)? Увеличить мощность теста: повысить размер выборки (nobs), увеличить размер эффекта (если возможно) или использовать более чувствительный метод анализа.

Ответ 18+ 🔞

Ну ты представляешь, сидишь такой, весь из себя аналитик, проверяешь свою новую фичу — а она нихуя не работает! Точнее, работает, но ты этого не видишь. Вот это и есть ошибка второго рода, ёпта. Ситуация пиздопроебибна: эффект на самом деле есть, а твой тест такой — «да похуй, не вижу разницы, идите все нахуй». И ты, доверчивая мартышлюшка, веришь этому тесту и хоронишь крутую идею. А она была огонь!

Это как если бы ты искал ключи по всей квартире, орал «где, блядь, ключи?!», а они лежат на видном месте, на тумбочке. Ты их не замечаешь, потому что смотришь под диван. Нулевая гипотеза (та, которую ты проверяешь) на самом деле хуйня, но ты её не отвергаешь. И проёбываешь успех.

Вероятность такого позора обозначается буковкой β. А её антипод — мощность теста (1 - β). Это твои шансы всё-таки обнаружить эффект, если он реально есть. Чем мощность выше, тем меньше шансов облажаться и пропустить победу.

Пример из жизни, чтоб совсем понятно было: Допустим, ты в интернет-лавке делаешь A/B-тест. Старая кнопка «Купить» зелёная (версия А). Новая — оранжевая и мигает (версия B). Твоя гипотеза: оранжевая мигалка увеличит конверсию.

H₀ (нулевая гипотеза): Оранжевая кнопка — такой же бесполезный хуй с горы, как и зелёная. Разницы нет.
На самом деле: Оранжевая кнопка — просто волшебство, конверсия взлетает на 20%!

Но если твой тест слабенький, выборка маленькая, а анализ кривой, он может выдать: «Э, дружок, статистически значимой разницы нет, оставляем зелёную». И ты, сам от себя охуев, отказываешься от мигалки. Вот ты только что совершил ошибку второго рода, блядь! Упустил профит. Чистая хитрая жопа статистики тебя подвела.

# Смотри, как прикинуть, не облажаешься ли ты с мощностью теста
from statsmodels.stats.power import TTestIndPower

# Задаём параметры, чувак
effect_size = 0.5  # Размер эффекта. Не «ой, чуть-чуть», а нормальный такой толчок.
alpha = 0.05        # Допустимый риск ошибки первого рода (5%). Тут мы ложную тревогу не любим.
nobs = 50           # По 50 юзеров в каждой группе. Не овердохуища, но и не два с половиной аутиста.

# Магия расчётов
power_analysis = TTestIndPower()
power = power_analysis.power(effect_size=effect_size, nobs1=nobs, alpha=alpha, ratio=1.0)

print(f'Мощность теста (1 - β): {power:.2%}')  # Допустим, выйдет 70.4%
print(f'Вероятность ошибки II рода (β): {(1 - power):.2%}')  # Соответственно, 29.6% риска всё проебать

Смотри на вывод: мощность ~70%. Это значит, что с такими вводными у тебя есть 70% шансов обнаружить эффект, если он есть. И, соответственно, 30% шансов его просрать (это и есть β). Терпения ноль ебать на такие цифры! 30% — это дохуя рискованно.

Как не быть бздуном и снизить этот риск (β)?

Увеличить выборку (nobs). Это самый прямолинейный способ. Больше данных — меньше шума, легче увидеть сигнал. Да, дороже и дольше.
Поймать более жирный эффект (effect_size). Если твоя оранжевая кнопка даёт не +5%, а +50%, то и обнаружить её проще простого. Но это уже от идеи зависит.
Выбрать более чувствительный метод анализа. Иногда классические тесты тупят, и нужно чтото похитрее.

Короче, суть в чём: когда планируешь эксперимент, обязательно прикидывай мощность. Иначе получится, что ты три недели тест гонял, потратил силы, а в итоге доверия ебать ноль к его результатам, потому что шанс пропустить эффект был как у обезьяны в дартс попасть. Не делай так, будь умнее.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки