Как превратить линейную регрессию в классификатор?

Question

Как превратить линейную регрессию в классификатор?

Тип вопроса: Классическое ML Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Прямое использование линейной регрессии (LinearRegression) для классификации — плохая практика, так как модель предсказывает непрерывные, неограниченные значения, которые нельзя интерпретировать как вероятность класса. Вместо этого я использую логистическую регрессию, которая является линейной моделью для классификации.

Принцип работы: Логистическая регрессия применяет к линейной комбинации признаков z = w*x + b сигмоидную функцию (логит-преобразование), которая «сжимает» результат в интервал (0, 1), интерпретируемый как вероятность P(y=1|x).

Практический пример (бинарная классификация на scikit-learn):

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# Генерация синтетических данных
X, y = make_classification(n_samples=1000, n_features=10, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Создание и обучение модели
# Параметр C контролирует силу регуляризации (обратная величина)
model = LogisticRegression(C=1.0, solver='lbfgs', max_iter=1000)
model.fit(X_train, y_train)

# Предсказание вероятностей и классов
probabilities = model.predict_proba(X_test)[:, 1] # Вероятность положительного класса
predictions = model.predict(X_test) # Классы (порог по умолчанию 0.5)

Ключевые отличия и настройки:

Многоклассовая классификация: По умолчанию LogisticRegression использует схему «one-vs-rest» (OvR). Для истинного многоклассового логита можно задать multi_class='multinomial', что задействует функцию softmax.
Порог принятия решения: Порог 0.5 не всегда оптимален. Я анализирую ROC-кривую и выбираю порог, исходя из бизнес-требований (например, максимизация F1-score или Precision).
Регуляризация: Логистическая регрессия по умолчанию включает L2-регуляризацию (контролируется параметром C). Это критически важно для избежания переобучения, особенно когда признаков много.

Таким образом, я не «превращаю» линейную регрессию, а выбираю корректную линейную модель, разработанную для задач классификации.

Ответ 18+ 🔞

Слушай, ну это же классика, блядь! Какой нахуй LinearRegression для классификации? Это всё равно что пытаться суп вилкой хлебать — вроде похожие инструменты, но нихуя не работает как надо.

Вот представь: линейная регрессия — она как необузданный конь, несётся куда хочет, значения какие угодно выплёвывает. А тебе-то надо понять, к какому классу объект относится: кошка или собака, спам или не спам. Ну и как, блядь, интерпретировать, если модель тебе выдаст, скажем, 5.3? Это что, вероятность 530%? Ёпта, да это же пиздец полный!

Вот поэтому умные дядьки придумали логистическую регрессию. Суть проще пареной репы, хоть и звучит умно. Берём ту же самую линейную комбинацию z = w*x + b (наш старый знакомый), но потом пропускаем её через сигмоидную функцию — этакую волшебную мясорубку. Она берёт любое число, хоть минус бесконечность, хоть плюс бесконечность, и превращает его в аккуратную вероятность от 0 до 1. Гениально же, а? P(y=1|x) — вот что получается на выходе. Уже можно работать.

Смотри, как это в деле выглядит (на питоне, разумеется):

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# Наковыряем себе данных для прикола
X, y = make_classification(n_samples=1000, n_features=10, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Рожаем модель и пихаем в неё данные
# C — это сила регуляризации, только наоборот: чем меньше, тем сильнее. Не перепутай, а то переобучишься нахуй.
model = LogisticRegression(C=1.0, solver='lbfgs', max_iter=1000)
model.fit(X_train, y_train)

# А теперь гадаем на кофейной гуще (только по-научному)
probabilities = model.predict_proba(X_test)[:, 1] # Вероятность, что это положительный класс
predictions = model.predict(X_test) # А это уже готовые ответы (порог 0.5 по умолчанию)

Важные фишки, которые надо держать в голове, а то облажаешься:

Если классов больше двух: По умолчанию склерн юзает схему «один против всех» (OvR). Но если хочешь настоящую, честную многоклассовую классификацию, то ставь multi_class='multinomial'. Там уже будет softmax вместо сигмоида — тоже крутая штука.
Порог 0.5 — это не священная корова. Очень часто он нихуя не оптимальный. Надо смотреть на ROC-кривую и думать головой: что важнее — поймать всех мошенников, но половину нормальных клиентов забанить (высокий recall), или минимизировать ложные срабатывания, даже если пару ушастых прохлопаешь (высокий precision)? Бизнес-задача решает.
Регуляризация — твой лучший друг. По умолчанию там стоит L2, и это овердохуища важно, особенно если признаков дохуя, а данных — кот наплакал. Параметр C как раз за это отвечает. Меньше C — сильнее регуляризация, модель проще, меньше шансов нахулиганить и запомнить шум.

Короче, я не пытаюсь из линейной регрессии слепить какую-то химеру. Я просто беру правильный инструмент с самого начала. Логистическая регрессия — это и есть линейная модель, но заточенная именно под классификацию. Всё гениальное — просто, ёпта. Главное — не выебывайся и используй как надо.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки