Ответ
BERT (Bidirectional Encoder Representations from Transformers) предобучался на двух задачах без учителя, что позволило ей освоить глубокое контекстное представление языка.
1. Masked Language Modeling (MLM)
- Суть: Случайные токены (обычно 15%) во входной последовательности заменяются на специальный токен
[MASK]. Задача модели — предсказать исходное слово на основе контекста с обеих сторон. - Пример:
- Исходный текст:
"The quick brown fox jumps over the lazy dog." - Замаскированный ввод:
"The [MASK] brown fox jumps over the [MASK] dog." - Модель учится предсказывать
"quick"и"lazy".
- Исходный текст:
- Важность: Это делает BERT двунаправленной моделью, в отличие от однонаправленных (вроде GPT), что критично для понимания контекста в таких задачах, как NER или извлечение ответов.
2. Next Sentence Prediction (NSP)
- Суть: Модели на вход подаются два предложения. Она должна классифицировать, является ли второе предложение логическим продолжением первого в исходном документе.
- Примеры пар:
- Положительная:
["Кошка сидела на коврике.", "Она мурлыкала от удовольствия."] - Отрицательная:
["Кошка сидела на коврике.", "Вчера я ходил в магазин за хлебом."]
- Положительная:
- Цель: Научить модель понимать отношения между предложениями, что необходимо для задач вроде Question Answering (SQuAD) или Natural Language Inference (NLI).
Итог: Комбинация MLM и NSP дала BERT мощные представления, которые затем можно эффективно дообучать (fine-tune) на широком спектре downstream-задач с относительно небольшими размеченными данными.
Ответ 18+ 🔞
Слушай, а вот этот ваш BERT — он вообще как учился-то? Ну, типа, без учителя, сам по себе. А оказывается, две такие хитрые задачки ему подкинули, чтобы он язык по-настоящему прочухал, со всех сторон.
1. Замаскированный язык, или "Угадай слово, ёпта" (Masked Language Modeling, MLM)
- В чём прикол: Берётся текст, и в нём случайно, где-то в 15% случаев, слова заменяются на эту дурацкую заглушку
[MASK]. А модель должна угадать, что там изначально было. И главное — смотреть можно ВООБЩЕ ВО ВСЕ СТОРОНЫ, и до маски, и после. Не как у тех однонаправленных GPTшек, которые только вперёд пялятся. - Пример, чтобы совсем понятно стало:
- Было:
"The quick brown fox jumps over the lazy dog." - Стало:
"The [MASK] brown fox jumps over the [MASK] dog." - И модель думает: "Э, сабака сука... Ну, 'quick' тут просится, и 'lazy'... Окей, вот тебе ответ".
- Было:
- А зачем это надо? Да чтобы модель реально контекст ловила, а не просто словарь зубрила. Без этой фишки ни извлечение сущностей (NER), ни поиск ответов в тексте нормально не работали бы. Это ж основа основ!
2. Предсказание следующего предложения, или "А они вместе?" (Next Sentence Prediction, NSP)
- Суть проще некуда: Кидают модели пару предложений. И спрашивают: "Чувак, второе идёт после первого по смыслу, или это просто рандом из другой оперы?".
- Примеры, чтобы не быть голословным:
- Нормальная пара:
["Кошка сидела на коврике.", "Она мурлыкала от удовольствия."]— тут да, логично, одна история. - Полный бред:
["Кошка сидела на коврике.", "Вчера я ходил в магазин за хлебом."]— это уже пиздопроебибна какая-то, связи ноль.
- Нормальная пара:
- А цель-то какая? Да чтобы модель отношения между предложениями понимала, а не только внутри них копошилась. Без этого ни на вопросы по тексту толком отвечать, ни логические выводы делать.
И что в сухом остатке? Вот благодаря этим двум штукам — MLM и NSP — BERT и стал тем, кем стал. Получил такие офигенные, глубокие представления о языке, что потом его на любую конкретную задачку (типа классификации отзывов или там анализа тональности) можно дообучить буквально за пару эпох, и он уже выдаёт результат. Красота, а не модель.