Занимались ли вы генерацией признаков (feature engineering)?

Question

Занимались ли вы генерацией признаков (feature engineering)?

Тип вопроса: Предобработка данных Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Да, генерация признаков — это одна из самых важных и творческих частей в построении ML-моделей. Моя работа здесь всегда начинается с анализа домена и данных.

Конкретные примеры из практики:

Для задачи прогнозирования оттока клиентов (churn prediction):
- Создавал признаки, описывающие активность пользователя во времени: days_since_last_login, rolling_avg_session_duration_7d, cnt_transactions_last_month.
- Генерировал статистические признаки по сегментам: avg_invoice_amount_for_user_segment, std_payment_delay_for_user_region.
```
# Пример: создание признака "тренд трат"
df['purchase_trend'] = df.groupby('user_id')['purchase_amount']
                          .transform(lambda x: x.rolling(window=3, min_periods=1).mean().pct_change())
```
Для временных рядов (прогноз спроса):
- Извлекал циклические признаки из даты: синус и косинус дня недели, часа дня, чтобы модель понимала цикличность.
- Создавал лаг-признаки (значения за предыдущие дни) и скользящие статистики (среднее, стандартное отклонение за последнюю неделю).
Работа с категориальными признаками:
- Помимо One-Hot Encoding и Target Encoding, использовал счётчики (count encoding): как часто конкретное значение встречается в датасете. Это особенно полезно для категорий с высокой кардинальностью.

Методология:

После генерации большого пула признаков я всегда провожу отбор.
Использую feature_importance из деревьев (XGBoost, LightGBM) и SHAP-значения, чтобы понять, какие признаки действительно вносят вклад в предсказание модели, а какие являются шумом.
Domain knowledge — это ключ. Например, для e-commerce признак discount_depth_to_avg_price_ratio (глубина скидки относительно средней цены товара) часто оказывается более значимым, чем просто абсолютное значение скидки.

Ответ 18+ 🔞

Слушай, а ведь генерация фичей — это та самая магия, где твоя башка должна работать, а не просто тыкать в кнопки. Это как собрать из говна и палок танк, который потом всех нахуй разъезжает. Без этого — нихуя не получится, хоть обосрись.

Вот смотри, как я обычно действую. Беру данные, вываливаю их перед собой и думаю: «Ну и мудя тут у нас?». Сначала надо въехать в предметку, понять, о чём эти цифры вообще. Без этого — пизда рулю, будешь признаки генерировать, которые нихуя не объясняют.

Вот тебе живые примеры, как я это делал:

Когда надо было предсказать, когда клиент нахуй свалит (churn prediction):
- Я лепил признаки, которые показывают, как человек затухает. Например, days_since_last_login — сколько дней он уже в запое не заходил. Или rolling_avg_session_duration_7d — в среднем за неделю он на сайте пять минут торчал или пять секунд? Если время падает — подозрение ебать чувствую.
- Или вот: avg_invoice_amount_for_user_segment. Не просто сколько он тратит, а по сравнению с такими же, как он. Может, он и мало тратит, но для своего сегмента нищебродов — король! Такие признаки — золото.
```
# Вот, например, сделал признак "тренд трат" — человек начинает скупердяйничать или нет?
df['purchase_trend'] = df.groupby('user_id')['purchase_amount']
                          .transform(lambda x: x.rolling(window=3, min_periods=1).mean().pct_change())
```
Если эта цифра уходит в минус — пиши пропало, скоро он тебе скажет «иди ты нахуй».
Для прогноза спроса, там где временные ряды:
- Тут вообще ёперный театр. Надо объяснить модели, что понедельник — день тяжёлый, а пятница — гуляночная. Я вытаскивал из даты циклические фичи: синус и косинус дня недели, часа. Чтобы модель понимала, что после 23:00 спрос на пиццу — овердохуища, а на станки для бритья — ноль.
- Ну и классика — лаг-признаки. Сколько продали вчера, позавчера, неделю назад. Плюс скользящее среднее за последние семь дней, чтобы отсеять случайные выбросы.
А с категориальными признаками, где одни названия городов или типов товаров?
- One-Hot Encoding — это, конечно, основа, но если категорий тысячи, получится пиздопроебищная разреженная матрица.
- Поэтому я часто юзал счётчики (count encoding). Простая, но хитрая жопа: не важно, как категория называется, важно, как часто она встречается. Редкая категория — это один сигнал, частная — другой. Иногда это работает лучше всякой сложной ерунды.

А теперь главное — методология, чтобы не нагенерировать хуйни: После того как накодил признаков, будто маньяк, их надо отфильтровать. А то будет овердохуища мусора, и модель запутается.

Запускаю XGBoost или LightGBM, смотрю на feature_importance. Те фичи, что в самом низу списка — кандидаты на вылет.
Но ещё круче — SHAP-значения. Это когда ты видишь не просто «важно», а как признак влияет на каждое конкретное предсказание. Бывает, признак в среднем не очень важен, но в 5% критических случаев решает всё. Без SHAP'а можно такого выкинуть — потом будешь кусать локти.
И да, предметные знания — это всё. Вот в e-commerce я делал признак discount_depth_to_avg_price_ratio (насколько скидка глубокая относительно средней цены товара). Так эта хитрая жопа оказалась важнее, чем просто размер скидки в рублях! Потому что скидка в 100 рублей на хлеб — пиздец какая щедрость, а на iPhone — просто насмешка. Без понимания бизнеса такой фичи в голову не придёт.

Короче, генерация фичей — это не технарьство, это искусство. Надо быть немножко аналитиком, немножко психологом и немножко шаманом, чтобы из сырых данных выудить эти сокровенные сигналы. Иначе так и будешь строить модели, которые нихуя не предсказывают.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки