Приведи пример, когда обучение своего токенизатора имеет смысл.

Question

Приведи пример, когда обучение своего токенизатора имеет смысл.

Тип вопроса: NLP и трансформеры Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Обучение кастомного токенизатора оправдано, когда ваш корпус текстов имеет уникальную лексику или структуру, которую стандартные токенизаторы (BPE, WordPiece, SentencePiece) обрабатывают неоптимально.

Типичные сценарии:

Доменно-специфичные тексты: Медицинские отчеты, юридические документы, научные статьи с множеством сложных составных терминов (например, "гипергликемия"), которые стандартный токенизатор разобьет на бессмысленные субтокены.
Обработка кода: Программный код имеет особый синтаксис. Пробелы, отступы, скобки {, }, операторы -> или += могут нести смысл. Стандартный токенизатор, обученный на естественном языке, может их игнорировать или некорректно разбивать.
Смешанные языки или редкие языки.

Пример: обучение BPE-токенизатора для Python-кода с использованием библиотеки Hugging Face tokenizers.

from tokenizers import Tokenizer, models, trainers, pre_tokenizers, decoders

# 1. Инициализация BPE модели
tokenizer = Tokenizer(models.BPE(unk_token="[UNK]"))

# 2. Используем pre-tokenizer, который разделяет по пробелам и знакам препинания,
# что хорошо подходит для кода.
tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)

# 3. Настройка тренера со специальными токенами
special_tokens = ["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
trainer = trainers.BpeTrainer(
    vocab_size=30000,  # Целевой размер словаря
    special_tokens=special_tokens,
    min_frequency=2
)

# 4. Обучение на файлах с Python кодом
files = ["project/**/*.py"]  # Путь к вашим .py файлам
tokenizer.train(files, trainer)

# 5. Декодер для красивого вывода
tokenizer.decoder = decoders.ByteLevel()

# 6. Сохранение и загрузка
tokenizer.save("python_code_tokenizer.json")

# Пример токенизации
encoded = tokenizer.encode("def calculate_loss(y_pred, y_true):n    return ((y_pred - y_true) ** 2).mean()")
print("Токены:", encoded.tokens)
# Может выдать что-то вроде: ['def', 'calculate', '_loss', '(','y','_pred', ...]
# Обратите внимание, что '_loss' и '_pred' — это субтокены, сохраненные вместе с важным символом '_'.

Такой токенизатор будет эффективнее работать с именами переменных, функциями и синтаксисом Python.

Ответ 18+ 🔞

А, ну вот, смотри, история интересная. Обучение своего токенизатора — это как настраивать карбюратор на старой девятке. Вроде и едет, но если знаешь, что делаешь, то можно выжать из неё такие пируэты, что стандартный инжектор обзавидуется.

Когда это вообще имеет смысл, а не просто ебанина лишняя?

Специфичные тексты, где свои заморочки: Ну, там, медкарты, где «гипергликемия» — это одно слово, а не «гипер», «глик», «емия», которые нихуя не говорят модели. Или законы, где каждая запятая может судьбу решить. Стандартный токенизатор всё это порубит в салат, а смысл-то в целостности.
Когда код нужно учить: Вот это, бля, отдельная песня. Для кода пробел или таб — это не просто воздух, а часто синтаксис. Скобка { или оператор += — это святое. Обычный токенизатор, обученный на романах, посмотрит на это как баран на новые ворота и раздробит всё в пыль.
Ну или если у тебя там смесь языков, или какой-нибудь редкий диалект, на который всем похуй.

Смотри, как это делается на примере BPE для Python-кода. Библиотека tokenizers от Hugging Face — наш друг.

from tokenizers import Tokenizer, models, trainers, pre_tokenizers, decoders

# 1. Берём модель BPE. Говорим, что если чего не знаем — пусть показывает [UNK].
tokenizer = Tokenizer(models.BPE(unk_token="[UNK]"))

# 2. Говорим, как предварительно рубить текст. ByteLevel — часто то, что надо для кода, он с символами работает аккуратно.
tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)

# 3. Настраиваем тренера. Говорим, сколько слов в словаре хотим и какие токены — священные коровы.
special_tokens = ["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
trainer = trainers.BpeTrainer(
    vocab_size=30000,  # Хватит, я думаю, овердохуища не надо
    special_tokens=special_tokens,
    min_frequency=2    # Если слово реже двух раз встретилось — пошло оно нахуй из словаря
)

# 4. Кормим его твоими питоновскими файлами. Пусть учится, сука.
files = ["project/**/*.py"]  # Вот так все .py файлы в проекте соберём
tokenizer.train(files, trainer)

# 5. Ставим декодер, чтобы обратно собирать текст из токенов красиво.
tokenizer.decoder = decoders.ByteLevel()

# 6. Сохраняем эту красоту. Теперь это твой личный инструмент.
tokenizer.save("python_code_tokenizer.json")

# Ну и смотрим, что он натворил с какой-нибудь функцией.
encoded = tokenizer.encode("def calculate_loss(y_pred, y_true):n    return ((y_pred - y_true) ** 2).mean()")
print("Токены:", encoded.tokens)
# Может выдать что-то типа: ['def', 'calculate', '_loss', '(','y','_pred', ...]
# Видишь, '_loss' и '_pred' он выучил как целые куски! Это же ёперный театр, как удобно!

Вот такой кастомный уродец будет уже понимать, что подчёркивание в _pred — это не просто символ, а часть имени переменной. И в целом с кодом работать будет в разы адекватнее. Не панацея, конечно, но иногда — просто волшебная таблетка.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки