Сколько слоёв нужно в многослойном перцептроне с линейной функцией активации, чтобы аппроксимировать полином третьей степени?

Question

Сколько слоёв нужно в многослойном перцептроне с линейной функцией активации, чтобы аппроксимировать полином третьей степени?

Тип вопроса: Нейронные сети и Deep Learning Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Строго говоря, ни одного скрытого слоя с чисто линейными активациями не достаточно.

Причина: Композиция линейных преобразований (слоёв) сама является линейным преобразованием. Многослойный перцептрон (MLP) без нелинейных функций активации между слоями математически эквивалентен одной линейной модели, независимо от количества слоёв. Он может аппроксимировать только линейную зависимость y = w*x + b.

Для аппроксимации нелинейной функции, такой как полином третьей степени (y = ax³ + bx² + cx + d), необходимы нелинейные функции активации (ReLU, sigmoid, tanh).

Практический пример с PyTorch:

import torch
import torch.nn as nn

# Модель с одним скрытым слоем и нелинейностью ReLU
class PolyApproximator(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(1, 10),  # 1 вход (x), 10 нейронов в скрытом слое
            nn.ReLU(),         # КРИТИЧЕСКИ ВАЖНАЯ нелинейность
            nn.Linear(10, 1)   # Выход
        )
    def forward(self, x):
        return self.net(x)

# Такая сеть с достаточным количеством нейронов может аппроксимировать полином.
# Без строки `nn.ReLU()` эта возможность теряется.

Вывод: Для моделирования полиномиальных и других сложных зависимостей в нейронных сетях нелинейные активации — обязательный компонент архитектуры.

Ответ 18+ 🔞

Давай разберём эту дичь, а то у меня уже терпения ноль, ебать. Представь, что ты пытаешься собрать мебель из Икеи, но вместо нормальной отвёртки тебе дали две палки — хуй с горы, толку от них? Вот так же и с нейросетями.

Смотри, если ты натыкаешь слои друг на друга, но между ними не ставишь никаких нелинейных активаций — это всё равно что пытаться сделать многоэтажный дом, склеивая этажи из пластилина. В итоге получится одна большая, ебать, лепёшка. Один сплошной блин. Математически это называется «композиция линейных преобразований», и она сама по себе — просто другое линейное преобразование. Проще говоря, сколько бы ты таких «скрытых» слоёв ни наставил, твоя умная сеть сможет смоделировать только прямую линию вида y = w*x + b. И всё. На этом всё заканчивается, ёпта.

А теперь задача: нам надо научить сеть выучить какую-нибудь заковыристую хрень, типа полинома третьей степени — y = ax³ + bx² + cx + d. Это уже не прямая, это кривая, у неё бугры и впадины. Линейной моделью её не опишешь, хоть тресни. Тут нужен инструмент посерьёзнее.

Вот поэтому и существуют эти самые функции активации — ReLU, sigmoid, tanh и прочие. Их задача — ломать эту линейность, вносить изгибы и повороты в вычисления. Без них твоя сеть — просто распиздяй, который не может выучить ничего сложнее таблицы умножения.

Смотри на код, тут всё наглядно:

import torch
import torch.nn as nn

# Нормальная, годная модель
class PolyApproximator(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(1, 10),  # Берём один икс, делаем из него 10 нейронов
            nn.ReLU(),         # А ВОТ ОНА, МАТЬ ЕГО, ЗАЛУПА КОНСКАЯ! Критически важная штука!
            nn.Linear(10, 1)   # Сводим обратно к одному ответу
        )
    def forward(self, x):
        return self.net(x)

Видишь строчку nn.ReLU()? Это и есть та самая волшебная палочка. Она берёт результат линейного слоя и пропускает его через функцию «ноль, если отрицательное, и само число, если положительное». Это и создаёт тот самый излом, нелинейность. Благодаря этому, сеть из кусочков таких «сломанных» линий может собрать любую, блядь, кривую — и полином, и синусоиду, и что угодно.

А теперь представь, что ты эту строчку закомментировал. Всё, пиши пропало. Модель превращается в ту самую одну большую линейную модель, и пусть у неё хоть овердохуища слоёв — она нихрена не сможет. Сам от себя охуеешь, когда увидишь результаты.

Итог, чувак: Хочешь, чтобы твоя нейросеть была хоть немного умнее калькулятора — не забывай про нелинейные активации. Без них это просто дорогой и медленный способ посчитать y = kx + b. Пизда рулю всей затее.

Видео-ответы

▶

Собеседование Data Science: Артур Кузин/Sber Devices vs Сергей Колесников/Tinkoff | #Нанято S1E02RU Junior / Middle | Июль 2021

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки