Пользовался ли библиотеками для глубокого обучения?

Question

Пользовался ли библиотеками для глубокого обучения?

Тип вопроса: Нейронные сети и Deep Learning Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Да, активно работаю с PyTorch и TensorFlow/Keras. Выбор зависит от задачи: PyTorch — для исследований и более гибких архитектур, TensorFlow/Keras — для production-развертывания, особенно с использованием TF Serving.

Пример реализации сверточной сети (CNN) на PyTorch для классификации изображений CIFAR-10:

import torch
import torch.nn as nn
import torch.nn.functional as F

class SimpleCNN(nn.Module):
    def __init__(self, num_classes=10):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 32, kernel_size=3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.fc1 = nn.Linear(64 * 8 * 8, 128)  # После двух пулов размер 8x8
        self.fc2 = nn.Linear(128, num_classes)
        self.dropout = nn.Dropout(0.25)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))  # -> [batch, 32, 16, 16]
        x = self.pool(F.relu(self.conv2(x)))  # -> [batch, 64, 8, 8]
        x = torch.flatten(x, 1)               # -> [batch, 64*8*8]
        x = self.dropout(F.relu(self.fc1(x))) # -> [batch, 128]
        x = self.fc2(x)                       # -> [batch, 10]
        return x

# Пример обучения
model = SimpleCNN()
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

Мой опыт включает:

Трансформеры: Fine-tuning предобученных моделей из библиотеки Hugging Face Transformers (BERT, GPT-2) для NLP задач.
Автоэнкодеры: Для задачи снижения размерности и поиска аномалий.
Перенос обучения (Transfer Learning): Использование предобученных CNN (ResNet, EfficientNet) из torchvision.models для компьютерного зрения.
Оптимизация: Работа с mixed precision training (torch.cuda.amp) для ускорения обучения и уменьшения потребления памяти на GPU.

Ответ 18+ 🔞

Ну вот, опять про эти фреймворки. Слушай, я с ними работаю, конечно, но это как выбирать между двумя видами боли. PyTorch — это когда тебе надо быстро наколхозить какую-нибудь дичь в ноутбуке, а TensorFlow/Keras — это когда тебе уже надо эту дичь запихнуть в продакшн, чтобы она не развалилась на первой же тысяче запросов. В общем, выбор простой: хочешь экспериментировать — бери PyTorch, хочешь, чтобы всё работало — бери TensorFlow, хотя и там, блядь, иногда такое вылезает, что волосы дыбом.

Вот, смотри, простой пример свёрточной сети на PyTorch для CIFAR-10. Код рабочий, проверено, но если что-то пойдёт не так — это не я виноват, это у тебя карма кривая.

import torch
import torch.nn as nn
import torch.nn.functional as F

class SimpleCNN(nn.Module):
    def __init__(self, num_classes=10):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 32, kernel_size=3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.fc1 = nn.Linear(64 * 8 * 8, 128)  # После двух пулов размер 8x8
        self.fc2 = nn.Linear(128, num_classes)
        self.dropout = nn.Dropout(0.25)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))  # -> [batch, 32, 16, 16]
        x = self.pool(F.relu(self.conv2(x)))  # -> [batch, 64, 8, 8]
        x = torch.flatten(x, 1)               # -> [batch, 64*8*8]
        x = self.dropout(F.relu(self.fc1(x))) # -> [batch, 128]
        x = self.fc2(x)                       # -> [batch, 10]
        return x

# Пример обучения
model = SimpleCNN()
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

А теперь про мой опыт, ёпта. Я с этим всем возился, так что могу рассказать, где собака зарыта.

Трансформеры: Ну, это святое. Качаешь модельку с Hugging Face, типа BERT или GPT-2, и начинаешь её дообучать под свою задачу. Главное — не переобучить, а то получится пиздопроебибна, которая только на твоих данных и работает. Доверия к таким моделям, блядь, ноль.
Автоэнкодеры: Штука полезная, особенно если надо найти что-то странное в данных или сжать их так, чтобы потом самому не понять, что там было. Но если архитектуру криво собрать, то он нихуя не научится, будет как мартышлюшка с клавиатурой — просто символы тыкать.
Перенос обучения: Вот это, блядь, мастхэв. Зачем с нуля учить какую-нибудь ResNet, если можно взять готовую, отрезать ей голову и прилепить свою? Экономия времени — овердохуища. Главное, заморозить первые слои как следует, а то вся твоя тонкая настройка накроется медным тазом.
Оптимизация: Тут без смешанной точности (torch.cuda.amp) сейчас вообще никуда. Памяти жрёт меньше, учится быстрее. Правда, иногда от такой оптимизации градиенты начинают вести себя как пидарас шерстяной — unpredictable как чёрт знает что. Но в целом, вещь.

Вот такой опыт, чувак. Если коротко: всё можно сделать, но всегда есть шанс, что в самый ответственный момент всё полетит к чертям собачьим. Так что сохраняй чекпоинты почаще, это я тебе как старый бздун говорю.

Видео-ответы

▶

#26 Junior Data Scientist | РЕАЛЬНОЕ СОБЕСЕДОВАНИЕ | Ответы Junior | Сентябрь 2024

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки