Как строится дерево решений?

Question

Как строится дерево решений?

Тип вопроса: Деревья и ансамбли Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Алгоритм строит дерево решений рекурсивно, на каждом шаге выбирая признак, который наилучшим образом разделяет данные, минимизируя неоднородность (impurity) в дочерних узлах.

Основные шаги алгоритма (на примере классификации):

Начать с корневого узла, содержащего все обучающие данные.
Для каждого признака вычислить, насколько хорошо он разделяет данные, используя критерий (например, индекс Джини или энтропию).
Выбрать признак, дающий максимальное снижение неоднородности (максимальный прирост информации).
Разделить узел по выбранному признаку, создав дочерние узлы.
Рекурсивно повторить шаги 2-4 для каждого дочернего узла, пока не будет выполнен критерий остановки.

Критерии остановки:

Достигнута максимальная глубина (max_depth).
Узел содержит меньше образцов, чем min_samples_split.
Разделение не приводит к значимому снижению неоднородности.

Пример построения с помощью scikit-learn:

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

# Загружаем данные
X, y = load_iris(return_X_y=True)

# Создаем и обучаем модель дерева решений
model = DecisionTreeClassifier(
    criterion='gini',  # Критерий для измерения качества разделения
    max_depth=3,       # Ограничиваем глубину для борьбы с переобучением
    min_samples_split=10
)
model.fit(X, y)

В результате получается древовидная структура правил if-else, интерпретируемая и визуализируемая.

Ответ 18+ 🔞

Слушай, ну это же классика, ёпта! Алгоритм дерева решений — это как будто самый дотошный и въедливый начальник на свете, который хочет всё разложить по полочкам. Он строит это дерево рекурсивно, то есть сам себя вызывает, пока не упрётся в потолок или в стену.

Как он это делает, этот хитрожопый механизм (на примере классификации):

Начинает с корня. Берёт всю нашу обучающую выборку, всю эту овердохуищу данных, и сваливает в одну кучу в корневом узле. Типа, «вот вам всё, разбирайтесь».
Начинает перебирать признаки. Для каждого признака он считает, насколько хорошо тот может разделить эту кучу на более аккуратные кучки. Смотрит через специальные очки — критерии вроде индекса Джини или энтропии. Суть одна: найти такой признак, после которого в дочерних узлах будет меньше бардака и неразберихи.
Выбирает лучший разделитель. Тот признак, который даёт максимальное снижение этой самой неоднородности. То есть, который делает из одной пиздопроебибной кучи — две более-менее чистенькие. Прирост информации, блядь, максимальный!
Рубит с плеча. Разделяет узел по этому выбранному признаку и создаёт новые, дочерние узлы. Всё, точка невозврата пройдена.
И по новой! Рекурсивно повторяет шаги 2-4 для каждого нового узла. И так он гоняет эту карусель, пока не наступит момент, когда дальше уже просто некуда или бессмысленно.

А когда он останавливается? Ну, когда упрётся в ограничения, которые мы, мудрые создатели, ему поставили:

Достигнута максимальная глубина (max_depth). Сказали «не глубже трёх» — сиди на третьем этаже и не рыпайся.
В узле осталось слишком мало образцов (min_samples_split). Делать из мухи слона — смысла нет.
Разделение уже не даёт никакого толкового выигрыша. Экономически невыгодно, блядь.

Вот как это выглядит в коде, на примере ирисов Фишера (тех самых цветочков):

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

# Грузим данные
X, y = load_iris(return_X_y=True)

# Создаём и обучаем модель
model = DecisionTreeClassifier(
    criterion='gini',  # Мерило качества разделения. 'gini' — наш бро.
    max_depth=3,       # Ограничиваем глубину, а то переобучится — будет умничать.
    min_samples_split=10 # Не даём плодить узлы из трёх листочков.
)
model.fit(X, y) # Обучаем. Сиди и учи правила, дерево!

В итоге получается этакая древовидная структура из правил if-else. Её можно нарисовать, посмотреть, потрогать — она интерпретируема, в отличие от этих ваших нейросеток-чёрных ящиков. Всё прозрачно, как слёзы ребёнка. Ну, почти.

Видео-ответы

▶

100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование Junior / Middle | Июль 2022

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки