Как устроена модель BERT?

Question

Как устроена модель BERT?

Тип вопроса: NLP и трансформеры Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

BERT (Bidirectional Encoder Representations from Transformers) — это архитектура трансформера, предобученная на больших текстовых корпусах для создания контекстуализированных эмбеддингов слов.

Ключевые архитектурные особенности:

Двунаправленный контекст: В отличие от односторонних моделей вроде GPT, BERT анализирует контекст слева и справа от каждого токена одновременно благодаря механизму Masked Self-Attention.
Стек энкодеров: Состоит из идентичных слоев-энкодеров (обычно 12 в bert-base, 24 в bert-large). Каждый слой включает:
- Multi-Head Self-Attention для вычисления взвешенных зависимостей между всеми токенами в последовательности.
- Полносвязную feed-forward сеть (обычно с активацией GELU).
- Layer Normalization и остаточные связи (Residual Connections) вокруг каждой подструктуры.
Специальные токены: Использует [CLS] (для классификации) и [SEP] (для разделения предложений).

Этапы предобучения:

MLM (Masked Language Modeling): Случайно маскируется 15% входных токенов, модель обучается их предсказывать. Это позволяет изучать глубокие контекстуальные представления.
NSP (Next Sentence Prediction): Модель обучается определять, является ли второе предложение логическим продолжением первого. Это помогает понимать отношения между предложениями.

Пример получения эмбеддингов с помощью Hugging Face Transformers:

from transformers import BertTokenizer, BertModel
import torch

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

inputs = tokenizer("Hello, BERT!", return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

# outputs.last_hidden_state содержит контекстуальные эмбеддинги для каждого токена
# outputs.pooler_output — это обработанный эмбеддинг токена [CLS]
embeddings = outputs.last_hidden_state

На практике предобученную BERT дообучают (fine-tune) на конкретных downstream-задачах: классификации текста, NER, question answering.

Ответ 18+ 🔞

Ёпта, слушай, вот есть такая штука — BERT. Расшифровывается как «Bidirectional Encoder Representations from Transformers», а по-простому — это такая архитектура трансформера, которую натаскали на овердохуища текстов, чтобы она понимала слова в контексте. То есть не просто «стол» — это стол, а «стол переговоров» — это уже совсем другая песня.

Что там у него внутри интересного, блядь:

Двунаправленный контекст: Это не какая-нибудь однобокая GPT, которая только вперёд смотрит. BERT-то, хитрая жопа, смотрит налево и направо от каждого слова одновременно. Как он это делает? А через Masked Self-Attention, вот как.
Стек энкодеров: Представь себе башню из одинаковых блоков. В bert-base их 12, а в bert-large — 24, там уже по-серьёзному. В каждом блоке:
- Multi-Head Self-Attention — это когда модель смотрит на все слова сразу и думает: «Ага, это слово вот с этим связано, а это — вот с тем». Удивление пиздец, как она умудряется.
- Полносвязная feed-forward сеть (обычно с GELU внутри) — ну, чтобы ещё немного подумать.
- Layer Normalization и остаточные связи — чтобы вся эта конструкция не развалилась и не поехала кукухой во время обучения.
Специальные токены: Есть у него свои фишки — токен [CLS] (от него потом ответ для классификации пляшет) и [SEP] (чтобы предложения друг от друга отпихнуть).

А как его, сука, учили-то? Два главных трюка:

MLM (Masked Language Modeling): Берут текст и 15% слов просто маскируют, как в игре «угадай слово». А модель должна догадаться, что там было. Вот так она и учится понимать, что к чему. Гениально же, ёпта!
NSP (Next Sentence Prediction): Дают два предложения и спрашивают: «Второе — это нормальное продолжение первого или просто рандомная хуйня?» Это чтобы модель отношения между предложениями ловила.

Ну и как с этим работать, блядь? Вот тебе пример на Python, смотри:

from transformers import BertTokenizer, BertModel
import torch

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

inputs = tokenizer("Hello, BERT!", return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

# outputs.last_hidden_state — тут лежат все контекстуальные эмбеддинги для каждого слова.
# outputs.pooler_output — а это уже обработанный эмбеддинг от токена [CLS], с ним часто работают.
embeddings = outputs.last_hidden_state

А на практике его, этого BERT, обычно не с нуля используют. Берут эту умную, уже натренированную сволочь и дообучают (fine-tune) под свою конкретную задачу: то ли отзывы классифицировать, то ли имена сущности вытаскивать, то ли на вопросы отвечать. В общем, инструмент, блядь, мощнейший.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки