Что такое механизм внимания (Attention) в нейронных сетях?

Question

Что такое механизм внимания (Attention) в нейронных сетях?

Тип вопроса: NLP и трансформеры Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Механизм внимания (Attention) — это компонент архитектуры нейронных сетей, который позволяет модели динамически выделять и взвешивать наиболее релевантные части входной последовательности при генерации каждого элемента выходной последовательности. Он решает проблему "бутылочного горлышка" в encoder-decoder архитектурах и улучшает работу с длинными зависимостями.

Основная идея: Вместо того чтобы кодировать всё входное предложение в один фиксированный вектор контекста (как в классических RNN), механизм внимания создаёт разный вектор контекста для каждого шага декодирования, основанный на взвешенной сумме всех входных скрытых состояний.

Ключевые компоненты Scaled Dot-Product Attention (из Transformer):

Query (Q): Вектор, представляющий текущий элемент, для которого ищется информация.
Key (K): Вектор, представляющий каждый элемент входной последовательности.
Value (V): Вектор, содержащий фактическую информацию каждого входного элемента.

Вычисление:

import torch
import torch.nn.functional as F

def scaled_dot_product_attention(query, key, value, mask=None):
    """
    query: [batch_size, seq_len_q, dim_k]
    key: [batch_size, seq_len_k, dim_k]
    value: [batch_size, seq_len_v, dim_v] (обычно seq_len_k == seq_len_v)
    """
    dim_k = query.size(-1)
    scores = torch.matmul(query, key.transpose(-2, -1)) / torch.sqrt(torch.tensor(dim_k, dtype=torch.float32))

    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)

    attention_weights = F.softmax(scores, dim=-1)  # [batch_size, seq_len_q, seq_len_k]
    output = torch.matmul(attention_weights, value)  # [batch_size, seq_len_q, dim_v]
    return output, attention_weights

Практическое значение: Этот механизм позволяет модели, например, при переводе слова "bank", "посмотреть" на разные части исходного предложения ("река" или "финансовое учреждение"), чтобы выбрать правильный контекст. Он является фундаментом для архитектуры Transformer, лежащей в основе современных LLM.

Ответ 18+ 🔞

Да ты послушай, что эти умники придумали! Механизм внимания, блядь. Представь себе: раньше нейронка пыталась впихнуть всё предложение в один ёбаный вектор, как в рот запихнуть арбуз целиком — нихуя не понятно, что там внутри, и половина смысла по щекам течёт. А тут приходят ребята и говорят: «А давайте не будем, как дураки, всё в одну кучу сгребать!»

Суть, если на пальцах: Вместо того чтобы тупо жрать всё подряд, модель теперь, как хитрая жопа, на каждом своём шаге оглядывается на исходный текст и думает: «Так-с, а что тут у нас самое важное лежит для этого конкретного слова, которое я сейчас вывожу?» И делает она это не абы как, а через три главные штуки: Query, Key и Value. Это, ёпта, как если бы ты (Query) пришёл в библиотеку (последовательность Keys), нашёл самую нужную тебе книжку по оглавлению, и взял из неё не всю книгу, а конкретные страницы (Values). И так для каждого своего шага — новый запрос, новый взгляд.

Как это в коде выглядит (Scaled Dot-Product Attention, сердце трансформера): Смотри, тут всё гениально и просто, как топор. Берём запросы и ключи, перемножаем, чтобы понять, насколько они друг другу подходят — это как оценить сходство. Потом масштабируем, чтобы градиенты не взорвались, это важно, а то будет вам хиросима и никаких наград. Если нужно (например, чтобы не заглядывать в будущее), накладываем маску — забиваем болт на ненужное. Потом прогоняем через softmax, получаем веса внимания — кто из входных слов самый важный прямо сейчас. И наконец, берём эти веса и взвешиваем ими Values. Всё, бля, вектор контекста готов, и он идеально заточен под текущую задачу.

import torch
import torch.nn.functional as F

def scaled_dot_product_attention(query, key, value, mask=None):
    """
    query: [batch_size, seq_len_q, dim_k]
    key: [batch_size, seq_len_k, dim_k]
    value: [batch_size, seq_len_v, dim_v] (обычно seq_len_k == seq_len_v)
    """
    dim_k = query.size(-1)
    scores = torch.matmul(query, key.transpose(-2, -1)) / torch.sqrt(torch.tensor(dim_k, dtype=torch.float32))

    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)

    attention_weights = F.softmax(scores, dim=-1)  # [batch_size, seq_len_q, seq_len_k]
    output = torch.matmul(attention_weights, value)  # [batch_size, seq_len_q, dim_v]
    return output, attention_weights

А нахуя это всё? Да затем, что это пиздец как работает! Раньше модель, встречая слово «bank», могла только гадать, о реке речь или о конторе с деньгами. А теперь она, сука, может прямо «посмотреть» (attention weights) на другие слова в предложении — если рядом «river», то веса потянутся туда, и контекст будет про речной берег. Если «money» — то в другую сторону. Это же ебать мои старые костыли, какой прорыв! На этой хуйне, простите, на этом механизме, выросли все современные монстры вроде GPT, и теперь они понимают контекст лучше иного полупидора с дипломом лингвиста.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки