Что такое бинарная классификация

«Что такое бинарная классификация» — вопрос из категории Машинное обучение, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Бинарная классификация — это задача машинного обучения, где модель предсказывает один из двух возможных классов (например, "спам/не спам", "болен/здоров").

Ключевые особенности:

  • Выход модели — вероятность принадлежности к классу (обычно 0 или 1)
  • Метрики: точность, полнота, F1-score, ROC-AUC
  • Популярные алгоритмы: логистическая регрессия, SVM, деревья решений

Пример кода (Python, scikit-learn):

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = LogisticRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Для несбалансированных данных важно использовать методы вроде oversampling или весов классов.