Приведи пример плохой (неинформативной) энтропии в контексте машинного обучения.

Question

Приведи пример плохой (неинформативной) энтропии в контексте машинного обучения.

Тип вопроса: Статистика и теория вероятностей Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

В машинном обучении энтропия Шеннона измеряет неопределенность или информационную насыщенность распределения. «Плохая» энтропия — это крайние случаи, когда она слишком мала (близка к 0) или, в некоторых контекстах, слишком велика, что снижает полезность данных для обучения модели.

Главный пример — дисбаланс классов:

Представьте задачу обнаружения мошеннических операций, где 99% транзакций легальны (класс 0), и только 1% — мошеннические (класс 1).

import numpy as np
from scipy.stats import entropy
from collections import Counter

# Эмуляция меток для сильно несбалансированного датасета
labels = np.array([0] * 990 + [1] * 10)  # 990 нулей, 10 единиц

# Подсчет вероятностей классов
counts = Counter(labels)
probs = [count / len(labels) for count in counts.values()]

# Расчет энтропии
entropy_value = entropy(probs, base=2)
print(f"Распределение меток: {dict(counts)}")
print(f"Вероятности классов: {probs}")
print(f"Энтропия H(L): {entropy_value:.4f} бит")

# Для сравнения, энтропия сбалансированного распределения (2 класса)
balanced_entropy = entropy([0.5, 0.5], base=2)
print(f"nЭнтропия сбалансированного распределения: {balanced_entropy:.4f} бит")

Вывод:

Распределение меток: {0: 990, 1: 10}
Вероятности классов: [0.99, 0.01]
Энтропия H(L): 0.0808 бит  # ОЧЕНЬ НИЗКАЯ ЭНТРОПИЯ
Энтропия сбалансированного распределения: 1.0000 бит

Почему это «плохо»:

Модель ничему не учится: Простой классификатор, который всегда предсказывает класс 0, достигнет accuracy в 99%, но будет бесполезен. Энтропия близка к нулю, так как исход почти предопределен.
Критерии разделения в деревьях решений (Information Gain) становятся нестабильными. Прирост информации основан на уменьшении энтропии. Если исходная энтропия и так мизерная, найти хорошее разделение практически невозможно.
Проблемы с оценкой: Метрики вроде Accuracy вводят в заблуждение. Необходимо использовать F1-score, Precision-Recall AUC или балансировать данные (через SMOTE, ADASYN, undersampling) и применять взвешивание классов в функции потерь.

Другой пример «плохой» энтропии — абсолютно случайные данные (максимальная энтропия), где никакая закономерность не существует, и обучение невозможно.

Ответ 18+ 🔞

Э, слушай, вот объясню тебе про эту вашу энтропию Шеннона, как есть. Представь, что ты заходишь в комнату, а там сто человек. Если девяносто девять из них — обычные чуваки в джинсах, а один — пидарас шерстяной в костюме Деда Мороза в июле, то твоё удивление пиздец как мало. Потому что всё и так ясно, нихуя интересного. Вот это и есть низкая энтропия — когда всё предсказуемо до тошноты.

Вот смотри на код, тут всё чётко:

import numpy as np
from scipy.stats import entropy
from collections import Counter

# Эмуляция меток для сильно несбалансированного датасета
labels = np.array([0] * 990 + [1] * 10)  # 990 нулей, 10 единиц

# Подсчет вероятностей классов
counts = Counter(labels)
probs = [count / len(labels) for count in counts.values()]

# Расчет энтропии
entropy_value = entropy(probs, base=2)
print(f"Распределение меток: {dict(counts)}")
print(f"Вероятности классов: {probs}")
print(f"Энтропия H(L): {entropy_value:.4f} бит")

# Для сравнения, энтропия сбалансированного распределения (2 класса)
balanced_entropy = entropy([0.5, 0.5], base=2)
print(f"nЭнтропия сбалансированного распределения: {balanced_entropy:.4f} бит")

Видишь вывод? Энтропия — 0.08 бит. Это, блядь, ни о чём. Как будто ты знаешь, что из ста бутылок в холодильнике девяносто девять — пиво, а одна — кефир. Ну и чё тут думать? Хватаешь первую попавшуюся — с вероятностью 99% будешь прав, что это пиво. Модель, которая всегда орёт «пиво!», будет почти всегда права, но толку-то? Она ж мошеннические операции, то есть этот ёбаный кефир, никогда не найдёт!

И вот почему это полная пиздопроебибна:

Модель превращается в овощ. Ей проще всегда тыкать в большинство, и она так и делает. Accuracy будет 99%, а по факту — ноль полезного действия. Доверия к такой модели — ебать ноль.
Деревья решений тупят. Они же ищут, где энтропия упадёт. А если она изначально почти нулевая, то куда её снижать-то? Никакого нормального разделения не найти, всё рассыпается. Чувствуешь подвох? Я чувствую.
Все метрики едут крышей. Смотришь на accuracy и думаешь: «О, 99%! Гений!». А на деле модель просто, как хитрая жопа, обходит проблему. Нужно врубать F1-score, Precision-Recall и прочую жесть, а данные балансировать через SMOTE или давать веса классам. Иначе — пиши пропало.

А бывает обратная, блядь, крайность — когда энтропия максимальная. Это как зайти в ту же комнату, а там пятьдесят чуваков и пятьдесят мартышлюшек в одинаковых костюмах. Полный хаос, нихуя не поймёшь, кто есть кто. Закономерности ноль, учиться не на чём. В общем, либо скука смертная, либо бардак овердохуища. И то, и другое — хуйня для машинного обучения. Идеал — где-то посередине, где есть и интрига, и порядок.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки