Почему увеличение сложности нейронных сетей чаще достигается путем добавления новых слоев, а не увеличением количества нейронов в каждом слое?

Question

Почему увеличение сложности нейронных сетей чаще достигается путем добавления новых слоев, а не увеличением количества нейронов в каждом слое?

Тип вопроса: Нейронные сети и Deep Learning Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Глубина (добавление слоев) предпочтительнее ширины (увеличение нейронов в слое) по нескольким ключевым причинам:

Иерархическое извлечение признаков: Глубокие сети могут выстраивать сложные иерархии абстракций. Например, в компьютерном зрении первые слои учатся распознавать края и текстуры, средние — простые формы, а глубокие — целые объекты. Широкие, но неглубокие сети хуже справляются с такой композиционностью.
Параметрическая эффективность: Для аппроксимации сложных функций глубокой сети часто требуется экспоненциально меньше параметров, чем широкой. Это следует из теоремы об универсальной аппроксимации для глубоких сетей.
Улучшенная регуляризация и обучаемость: Современные архитектурные элементы (например, остаточные связи (ResNet), нормализация пакетов (BatchNorm)) позволяют эффективно обучать очень глубокие сети, смягчая проблемы исчезающих/взрывающихся градиентов, которые были бы критичны для просто широких сетей.

Практический пример с TensorFlow/Keras:

import tensorflow as tf

# Эффективный подход: увеличение глубины
model_deep = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(100,)),
    tf.keras.layers.BatchNormalization(),
    tf.keras.layers.Dense(64, activation='relu'),  # Добавленный слой
    tf.keras.layers.Dense(10, activation='softmax')
])

# Менее эффективный подход: увеличение ширины
model_wide = tf.keras.Sequential([
    tf.keras.layers.Dense(256, activation='relu', input_shape=(100,)), # Широкий слой
    tf.keras.layers.Dense(10, activation='softmax')
])

# Глубокая модель часто показывает лучшее соотношение точности и количества параметров.
print(f"Глубокая модель параметров: {model_deep.count_params():,}")
print(f"Широкая модель параметров: {model_wide.count_params():,}")

Однако, важно избегать чрезмерного углубления без необходимости и использовать методы для стабилизации обучения.

Ответ 18+ 🔞

Ну слушай, тут такая тема, про которую можно дохуя умных слов наговорить, но если на пальцах, то всё просто, как три копейки. Представь, что тебе надо собрать табуретку. Можно взять одну доску толщиной в полметра и выпилить из неё всю конструкцию — это будет ширина, ёпта. Параметров — овердохуища, дерева уйдёт вагон, а хрен ли толку? А можно взять несколько нормальных планок, сделать ножки, перекладины, сиденье — вот тебе и глубина. И табуретка получится крепче, и материала меньше сожрёшь, и выглядит как надо. С нейросетями та же хуйня.

Почему глубина рулит:

Иерархия, мать её. Мозг наш так работает — от простого к сложному. Сначала видишь пиксели, потом края, потом уши-хвост, а потом уже понимаешь, что это кот, сука, собака. Глубокая сеть так же учится: первые слои — это «ой, уголок», средние — «а, это морда», а глубокие уже кричат «да это же мартышлюшка!». Широкая сеть — это как пытаться узнать кота, глядя сразу на все пиксели разом. Волнение ебать, но толку ноль.
Экономия, блядь. Чтобы описать сложную хуйню, глубокой сети нужно гораздо меньше этих самых весов и смещений, чем широкой. Это как если бы ты вместо того, чтобы учить наизусть всю инструкцию к стиралке, просто запомнил алгоритм: включил -> засыпал порошок -> выбрал режим -> пошёл пить пиво. Глубокая архитектура — она и есть этот алгоритм.
Фишки против пиздеца. Раньше, как начнёшь сеть углублять, так у неё градиенты — либо в ноль уходят, либо в космос взрываются. Терпения ноль ебать было. А теперь придумали остаточные связи (ResNet) и нормализацию пакетов (BatchNorm). Это как костыли, но крутые. Они позволяют строить сети в сотни слоёв, и те не сходят с ума. Просто широкую сеть так не прокачаешь — она упрётся в потолок и будет тупить.

Смотри, как это в коде выглядит:

import tensorflow as tf

# Правильный путь: углубляемся, как крот.
model_deep = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(100,)),
    tf.keras.layers.BatchNormalization(),  # Чтоб не бздеть
    tf.keras.layers.Dense(64, activation='relu'),  # Ещё слойчик, хитрая жопа
    tf.keras.layers.Dense(10, activation='softmax')
])

# Путь в никуда: просто раздуваем один слой.
model_wide = tf.keras.Sequential([
    tf.keras.layers.Dense(256, activation='relu', input_shape=(100,)), # Нахуярили нейронов, будто в бане паримся
    tf.keras.layers.Dense(10, activation='softmax')
])

# И что в сухом остатке? Глубокая модель часто умнее, хоть и скромнее в параметрах.
print(f"Глубокая модель параметров: {model_deep.count_params():,}")
print(f"Широкая модель параметров: {model_wide.count_params():,}")

Конечно, хуй с горы — это не значит, что надо пихать слои до потери пульса. Слишком глубоко закопаешься — тоже пиздопроебибна получится, обучаться не будет. Но если выбирать между «сделать один жирный слой» и «сделать несколько адекватных слоёв с умными штуками между ними», то второй вариант почти всегда выигрывает. Ядрёна вошь, а ведь логично.

Видео-ответы

▶

100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование Junior / Middle | Июль 2022

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки