В чем разница между F-мерой (F1-score) и ROC AUC?

Question

В чем разница между F-мерой (F1-score) и ROC AUC?

Тип вопроса: Метрики и функции потерь Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

F1-score (F-мера) и ROC AUC — метрики для оценки бинарных классификаторов, но они измеряют разные аспекты.

F1-Score

Что измеряет: Гармоническое среднее между Precision (точность) и Recall (полнота). Отражает баланс между ложными срабатываниями и пропущенными целями для конкретного порога классификации (обычно 0.5).
Формула: F1 = 2 * (Precision * Recall) / (Precision + Recall)
Когда использовать: Когда классы несбалансированы и важны оба типа ошибок. Например, в задачах поиска мошенничества (важно не пропустить мошенника — высокий Recall, и не заблокировать честного клиента — высокий Precision).

ROC AUC (Area Under the ROC Curve)

Что измеряет: Способность модели разделять два класса (отличить положительный от отрицательного) на всех возможных порогах. Показывает, насколько модель лучше случайного угадывания.
Диапазон: От 0 до 1. AUC = 0.5 — модель не лучше случайной, AUC = 1 — идеальное разделение.
Когда использовать: Для общей оценки качества модели, особенно когда распределение классов в будущем может измениться или когда порог классификации не фиксирован.

Ключевое отличие: F1-score — это конкретная точка на кривой (зависит от порога). ROC AUC — это интегральная характеристика качества разделения на всех порогах (не зависит от порога).

Пример на Python:

from sklearn.metrics import f1_score, roc_auc_score

y_true = [0, 1, 1, 0, 1]
y_pred_proba = [0.1, 0.9, 0.8, 0.3, 0.65] # вероятности класса 1

# Для F1 нужны бинарные предсказания. Применяем порог 0.5
y_pred_binary = [1 if p > 0.5 else 0 for p in y_pred_proba]
f1 = f1_score(y_true, y_pred_binary) # Оценивает качество при пороге 0.5

# ROC AUC работает с вероятностями
roc_auc = roc_auc_score(y_true, y_pred_proba) # Оценивает качество разделения в целом

Ответ 18+ 🔞

А, ну вот, опять эти ваши метрики! Слушай, давай я тебе на пальцах объясню, а то смотрю, у тебя уже глаза стекленеют, как у пингвина в пустыне.

Представь, что ты — вышибала в клубе. Твоя задача — не пускать несовершеннолетних. Вот и вся твоя бинарная классификация: «свой» (совершеннолетний) или «чужой» (шкет).

F1-score — это когда начальство тебя ебёт за две вещи одновременно. С одной стороны, они орут: «Ты что, этого лысого деда на вид 45 лет не пустил? Он наш главный спонсор, пидарас шерстяной!» Это низкий Precision — много ложных срабатываний. С другой стороны, они приходят на следующий день: «А почему вчера полклуба из 10-го «Б» было, все бухали? Ты спал, что ли?» Это низкий Recall — ты пропустил кучу целей. F1 — это такая хитрая жопа, которая пытается найти баланс, чтобы и дедов не обижать, и школьников не пускать. Но работает она только для одного конкретного правила, например: «Не пускать всех, кто на вид моложе 25». И всё, точка.

А теперь ROC AUC. Это уже не про одно правило, а про тебя самого. Это оценка твоей личной, ебать, проницательности как вышибалы. Насколько хорошо ты в принципе отличаешь взрослого дядьку от сопляка, вне зависимости от того, какое правило начальство сегодня придумало.

AUC = 0.5 — это ты слепой, как крот. Ты просто кидаешь монетку: «орёл» — пускаешь, «решка» — нет. Твоё угадывание не лучше случайного. Пиздец, да?
AUC = 1 — это ты ясновидящий. Ты с одного взгляда, по энергетике, по морщинам на душе, безошибочно определяешь, кому 18, а кому 17 и 11 месяцев. Идеальное разделение.

ROC AUC не говорит, кого ты сегодня пустил, а кого нет. Она говорит, насколько ты в принципе способен их разделить. Если твой AUC высокий, то начальство может менять правила хоть каждый час («сегодня пускаем только с бородой», «завтра — только тех, кто в пальто»), а ты всё равно будешь принимать более-менее адекватные решения.

Короче, ёпта:

F1 — это оценка правила (порога). «Как работает правило "не пускать моложе 25"?» Волнение ебать, если классы несбалансированные (школьников в 100 раз больше, чем дедов).
ROC AUC — это оценка твоей модели/интуиции. «Насколько ты вообще в теме, кто тут взрослый, а кто нет?» Не зависит от того, какое правило выберет начальство.

Вот тебе пример на питоне, тут без мата, потому что код его не понимает:

from sklearn.metrics import f1_score, roc_auc_score

# Настоящие ответы: 0 = шкет, 1 = свой
y_true = [0, 1, 1, 0, 1]
# Уверенность вышибалы (вероятность, что человек совершеннолетний)
y_pred_proba = [0.1, 0.9, 0.8, 0.3, 0.65]

# F1: применяем жёсткое правило "вероятность > 0.5 = пускаем"
y_pred_binary = [1 if p > 0.5 else 0 for p in y_pred_proba]
f1 = f1_score(y_true, y_pred_binary)  # Считаем, как мы сработали по ЭТОМУ правилу

# ROC AUC: оцениваем мою врождённую способность отличать шкетов от своих
roc_auc = roc_auc_score(y_true, y_pred_proba)  # Смотрим на мою проницательность в целом

Так что запомни: хочешь проверить конкретный порог — смотри на F1. Хочешь понять, не говно ли твоя модель в принципе — смотри на ROC AUC. Всё, теперь иди, блядь, работай, а не метрики изучай.

Ответ

F1-Score

ROC AUC (Area Under the ROC Curve)

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки