Ответ
Методы снижения размерности можно разделить на линейные, нелинейные и основанные на отборе признаков.
Линейные методы:
- PCA (Principal Component Analysis) — проецирует данные на ортогональные оси (главные компоненты), максимизирующие дисперсию. Эффективен для удаления коррелированных признаков и шума.
from sklearn.decomposition import PCA pca = PCA(n_components=2) X_reduced = pca.fit_transform(X) - LDA (Linear Discriminant Analysis) — в отличие от PCA, максимизирует разделимость между заранее известными классами, поэтому требует размеченных данных.
Нелинейные методы (часто для визуализации):
- t-SNE (t-Distributed Stochastic Neighbor Embedding) — сохраняет локальные структуры данных, хорошо подходит для визуализации кластеров в 2D/3D, но вычислительно сложен.
from sklearn.manifold import TSNE tsne = TSNE(n_components=2, perplexity=30) X_embedded = tsne.fit_transform(X) - UMAP (Uniform Manifold Approximation and Projection) — современная альтернатива t-SNE, часто быстрее и лучше сохраняет глобальную структуру данных.
Нейросетевые и другие подходы:
- Автокодировщики (Autoencoders) — нейросеть учится сжимать данные в скрытое представление (энкодер), а затем восстанавливать их (декодер). Размерность определяется размером скрытого слоя (bottleneck).
- Отбор признаков (Feature Selection) — не создает новые признаки, а выбирает наиболее информативные из существующих (например, через ANOVA, взаимную информацию или важность признаков из моделей).
Ответ 18+ 🔞
Ну слушай, тут вообще-то целая наука, как из этой кучи признаков выкинуть всё лишнее, чтобы модель не захлебнулась. Методов — овердохуища, но их можно по полочкам разложить.
Линейные, они же прямые как палка Тут всё просто: берём данные и как будто через мясорубку пропускаем, только на выходе — компактнее.
- PCA (Главные компоненты, ёпта) — Суть в чём: он ищет такие новые оси (компоненты), на которые можно спроецировать данные, чтобы разброс (дисперсия) был максимальный. По сути, выжимает из данных всю соль, убирая корреляции и шум. Как будто из жидкого супа воду выпариваешь, а вкус остаётся.
from sklearn.decomposition import PCA pca = PCA(n_components=2) X_reduced = pca.fit_transform(X) - LDA (Линейный дискриминантный анализ) — А вот этот чувак уже хитрая жопа. Ему мало просто данные сжать, ему нужно, чтобы классы после сжатия разбежались как можно дальше друг от друга. Но есть нюанс: ему заранее нужно знать, где чей класс. Без меток — ни хуя не получится, доверия к нему в таком случае — ноль ебать.
Нелинейные (тут уже начинается магия, часто для картинок) Когда данные закручены в такие спирали, что одной прямой не прошибешь.
- t-SNE — Это, бля, классика для визуализации. Он старается, чтобы точки, которые были близко в исходном пространстве, остались близко и на карте. Кластеры показывает — просто красота. Но есть проблема: работает медленно, а результат каждый раз может немного плавать. И глобальную структуру он иногда так перекрутит, что сам от себя охуеешь.
from sklearn.manifold import TSNE tsne = TSNE(n_components=2, perplexity=30) X_embedded = tsne.fit_transform(X) - UMAP — Это типа младший, но более крутой брат t-SNE. Чаще всего быстрее, и глобальную структуру данных сохраняет получше. Сейчас его все любят, прям мода пошла.
Нейросетевые и прочие извращения Тут уже полный отрыв.
- Автокодировщики (Autoencoders) — Представь нейросеть, которую заставляют пролезть в узкую горловину бутылки. Сначала она сжимает данные (энкодер), потом пытается из этого сжатого состояния восстановить всё как было (декодер). А нам-то как раз и нужно это самое узкое место — там и живёт наше низкоразмерное представление. Умно, но возни с обучением — ебать колотить.
- Отбор признаков (Feature Selection) — А это вообще философия. Зачем что-то там выдумывать, если можно просто взять и выкинуть всё ненужное? Смотрим, какие признаки реально влияют на целевую переменную (через статистику или важность из моделей), а какие просто болтаются как хуй с горы. Оставляем только самых крутых и идём дальше. Иногда это самый здравый подход, честно говоря.