Какие методы снижения размерности данных вы знаете?

Question

Какие методы снижения размерности данных вы знаете?

Тип вопроса: Предобработка данных Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Методы снижения размерности можно разделить на линейные, нелинейные и основанные на отборе признаков.

Линейные методы:

PCA (Principal Component Analysis) — проецирует данные на ортогональные оси (главные компоненты), максимизирующие дисперсию. Эффективен для удаления коррелированных признаков и шума.
```
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)
```
LDA (Linear Discriminant Analysis) — в отличие от PCA, максимизирует разделимость между заранее известными классами, поэтому требует размеченных данных.

Нелинейные методы (часто для визуализации):

t-SNE (t-Distributed Stochastic Neighbor Embedding) — сохраняет локальные структуры данных, хорошо подходит для визуализации кластеров в 2D/3D, но вычислительно сложен.
```
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, perplexity=30)
X_embedded = tsne.fit_transform(X)
```
UMAP (Uniform Manifold Approximation and Projection) — современная альтернатива t-SNE, часто быстрее и лучше сохраняет глобальную структуру данных.

Нейросетевые и другие подходы:

Автокодировщики (Autoencoders) — нейросеть учится сжимать данные в скрытое представление (энкодер), а затем восстанавливать их (декодер). Размерность определяется размером скрытого слоя (bottleneck).
Отбор признаков (Feature Selection) — не создает новые признаки, а выбирает наиболее информативные из существующих (например, через ANOVA, взаимную информацию или важность признаков из моделей).

Ответ 18+ 🔞

Ну слушай, тут вообще-то целая наука, как из этой кучи признаков выкинуть всё лишнее, чтобы модель не захлебнулась. Методов — овердохуища, но их можно по полочкам разложить.

Линейные, они же прямые как палка Тут всё просто: берём данные и как будто через мясорубку пропускаем, только на выходе — компактнее.

PCA (Главные компоненты, ёпта) — Суть в чём: он ищет такие новые оси (компоненты), на которые можно спроецировать данные, чтобы разброс (дисперсия) был максимальный. По сути, выжимает из данных всю соль, убирая корреляции и шум. Как будто из жидкого супа воду выпариваешь, а вкус остаётся.
```
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)
```
LDA (Линейный дискриминантный анализ) — А вот этот чувак уже хитрая жопа. Ему мало просто данные сжать, ему нужно, чтобы классы после сжатия разбежались как можно дальше друг от друга. Но есть нюанс: ему заранее нужно знать, где чей класс. Без меток — ни хуя не получится, доверия к нему в таком случае — ноль ебать.

Нелинейные (тут уже начинается магия, часто для картинок) Когда данные закручены в такие спирали, что одной прямой не прошибешь.

t-SNE — Это, бля, классика для визуализации. Он старается, чтобы точки, которые были близко в исходном пространстве, остались близко и на карте. Кластеры показывает — просто красота. Но есть проблема: работает медленно, а результат каждый раз может немного плавать. И глобальную структуру он иногда так перекрутит, что сам от себя охуеешь.
```
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, perplexity=30)
X_embedded = tsne.fit_transform(X)
```
UMAP — Это типа младший, но более крутой брат t-SNE. Чаще всего быстрее, и глобальную структуру данных сохраняет получше. Сейчас его все любят, прям мода пошла.

Нейросетевые и прочие извращения Тут уже полный отрыв.

Автокодировщики (Autoencoders) — Представь нейросеть, которую заставляют пролезть в узкую горловину бутылки. Сначала она сжимает данные (энкодер), потом пытается из этого сжатого состояния восстановить всё как было (декодер). А нам-то как раз и нужно это самое узкое место — там и живёт наше низкоразмерное представление. Умно, но возни с обучением — ебать колотить.
Отбор признаков (Feature Selection) — А это вообще философия. Зачем что-то там выдумывать, если можно просто взять и выкинуть всё ненужное? Смотрим, какие признаки реально влияют на целевую переменную (через статистику или важность из моделей), а какие просто болтаются как хуй с горы. Оставляем только самых крутых и идём дальше. Иногда это самый здравый подход, честно говоря.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки