Какое значение ROC-AUC у случайного классификатора?

Question

Какое значение ROC-AUC у случайного классификатора?

Тип вопроса: Метрики и функции потерь Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

ROC-AUC (Area Under the ROC Curve) для случайного классификатора, который не обладает дискриминативной способностью (т.е. его предсказания не коррелируют с истинными метками), равна 0.5.

Объяснение: ROC-кривая строится как зависимость True Positive Rate (TPR) от False Positive Rate (FPR) при варьировании порога классификации. Случайный классификатор с равной вероятностью предсказывает положительный класс для объектов любого истинного класса. Это означает, что на любом пороге TPR ≈ FPR. Такая кривая будет идти по диагонали из точки (0,0) в (1,1), а площадь под ней составит 0.5.

Практическая проверка:

import numpy as np
from sklearn.metrics import roc_auc_score, roc_curve
import matplotlib.pyplot as plt

np.random.seed(42)
n_samples = 1000
# Истинные метки (случайные)
y_true = np.random.randint(0, 2, n_samples)
# Случайные вероятности для положительного класса
y_pred_proba_random = np.random.rand(n_samples)

# Расчет ROC-AUC
auc_random = roc_auc_score(y_true, y_pred_proba_random)
print(f"ROC-AUC случайного классификатора: {auc_random:.3f}")  # Будет ~0.5

# Построение ROC-кривой для наглядности
fpr, tpr, _ = roc_curve(y_true, y_pred_proba_random)
plt.plot(fpr, tpr, label=f'Random (AUC = {auc_random:.2f})')
plt.plot([0, 1], [0, 1], 'k--', label='Chance level (AUC = 0.5)') # Диагональ
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.legend()
plt.show()

Важное следствие: Значение ROC-AUC значительно ниже 0.5 (например, 0.2) — это тревожный сигнал. Оно означает, что модель работает хуже случайного угадывания. Частая причина — перепутаны метки классов в предсказаниях (модель «инвертировала» классы). В таком случае простое инвертирование предсказаний (y_pred_corrected = 1 - y_pred) поднимет AUC выше 0.5.

Ответ 18+ 🔞

Давай разберемся с этим ROC-AUC, а то народ часто охуевает от цифр.

Смотри, есть у тебя классификатор, который нихуя не умеет — он просто тыкает пальцем в небо, как мартышка. Так вот, его ROC-AUC будет ровно 0.5. Почему? Да потому что он на любом пороге отсечения будет ошибаться так же часто, как и угадывать. Его кривая ROC — это прямая диагональ от угла до угла, площадь под которой — половина квадрата. Ёпта, это как угадывать орёл или решка — в долгой перспективе будет 50 на 50, хоть тресни.

А вот если твоя модель выдаёт AUC 0.2 или 0.3 — это пиздец, чувак. Это не просто плохо, это овердохуища плохо. Это значит, что твой алгоритм работает хуже, чем случайное гадание. Представь, ты спрашиваешь у гадалки, будет дождь или нет, а она стабильно предсказывает с точностью "наоборот". Вот это оно и есть.

Обычно такая херня случается, когда ты по пьяни перепутал метки классов на этапе обучения. Модель выучила, что "да" — это "нет", и наоборот. Лечится просто — инвертируешь предсказания (1 - y_pred), и вуаля, из позорных 0.2 получается более-менее приличные 0.8. Сам от такого охуевал не раз.

Смотри код, тут всё наглядно:

import numpy as np
from sklearn.metrics import roc_auc_score, roc_curve
import matplotlib.pyplot as plt

np.random.seed(42)
n_samples = 1000
# Нагенерили случайных истинных меток, как будто подбрасываем монетку
y_true = np.random.randint(0, 2, n_samples)
# А это предсказания нашего "гениального" случайного классификатора
y_pred_proba_random = np.random.rand(n_samples)

# Считаем ROC-AUC
auc_random = roc_auc_score(y_true, y_pred_proba_random)
print(f"ROC-AUC случайного классификатора: {auc_random:.3f}")  # Будет ~0.5

# Рисуем кривую, чтобы было понятно даже тому, кто в танке
fpr, tpr, _ = roc_curve(y_true, y_pred_proba_random)
plt.plot(fpr, tpr, label=f'Random (AUC = {auc_random:.2f})')
plt.plot([0, 1], [0, 1], 'k--', label='Chance level (AUC = 0.5)') # Эта самая диагональ
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.legend()
plt.show()

Запустишь этот код — увидишь почти идеальную диагональку и AUC около 0.5. Если же твой график проваливается куда-то под эту линию, а значение меньше 0.5 — это волнение ебать. Значит, пора не модель тюнить, а искать, где ты, распиздяй, накосячил с данными. Чёрта в душу, бывает же!

Видео-ответы

▶

#1 Успешное собеседование Data Scientist | Оффер 350к Senior | Октябрь 2023

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки