Как построить классификатор для распознавания чувствительных данных (PII) в чат-боте?

Question

Как построить классификатор для распознавания чувствительных данных (PII) в чат-боте?

Тип вопроса: NLP и трансформеры Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Для задачи классификации конфиденциальных данных (PII) в тексте чата я бы использовал комбинированный подход: правила для явных паттернов и ML-модель для контекстуального анализа.

1. Сбор и разметка данных: Создаю датасет из реальных или синтетических диалогов, помечая сообщения, содержащие PII (номера телефонов, emails, паспортные данные) и нейтральные. Важно сбалансировать классы и учедеть разнообразие формулировок.

2. Предобработка и извлечение признаков:

import re

def extract_features(text):
    features = {}
    # Признаки на основе правил
    features['has_phone_pattern'] = bool(re.search(r'+?d[ds-()]{7,}d', text))
    features['has_email_pattern'] = bool(re.search(r'[w.-]+@[w.-]+.w+', text))
    # Токенизация и лемматизация для NLP-модели
    tokens = simple_tokenize(text.lower())
    return features, tokens

3. Выбор и обучение модели: Для контекста использую легковесную модель, например, DistilBERT, дообученную на моих данных. Для быстрого прототипа можно начать с логистической регрессии на TF-IDF.

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Загрузка предобученной модели
model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
# ... дообучение на размеченных диалогах

4. Процесс классификации в продакшене: Входящее сообщение сначала проверяется набором регулярных выражений для высокоточного отлова стандартных форматов. Если правило не сработало, текст отправляется в NLP-модель для оценки контекста. Решение принимается по порогу вероятности, который я настраиваю по метрикам Precision/Recall на валидационной выборке, чтобы минимизировать ложные positives (раздражающие пользователя) и не пропустить реальные утечки.

5. Дополнительные меры:

Активное обучение: Сложные случаи, где модель неуверена, отправляются на разметку экспертом, и датасет пополняется.
Пост-обработка: Обнаруженные сущности маскируются (например, +7 XXX XXX-XX-XX) перед логированием или передачей дальше по конвейеру.

Ответ 18+ 🔞

Вот, смотри, как я бы эту хрень решал, если бы мне сказали: «Слушай, надо ловить всякие номера телефонов и паспорта в чатиках, чтобы они не утекали, как вода в дырявом тазу».

1. Сбор и разметка данных: Первым делом, конечно, надо набрать кучу этих самых диалогов. Берешь реальные переписки (обезличенные, естественно, а то потом сам станешь источником утечки, ёпта) или генеришь искусственные, но чтобы похоже было. И начинается самое весёлое — разметка. Сидишь, тыкаешь: вот тут чувак свой email вкинул — метка «PII», а тут он просто матом кроет начальство — метка «чистое». Главное — не перекосить, чтобы нейросеть не решила, что каждое второе слово — это номер кредитки. Баланс, ёбана, нужен.

2. Предобработка и извлечение признаков: Тут без старого доброго регулярного выражения — никуда. Потому что если в тексте есть что-то вроде +7 (900) 123-45-67, то тут даже ИИ с IQ комнатной температуры должен понять, что к чему.

import re

def extract_features(text):
    features = {}
    # Эти правила — как первая линия обороны. Тупая, но эффективная.
    features['has_phone_pattern'] = bool(re.search(r'+?d[ds-()]{7,}d', text))
    features['has_email_pattern'] = bool(re.search(r'[w.-]+@[w.-]+.w+', text))
    # А это уже для более хитрой, контекстной модели
    tokens = simple_tokenize(text.lower())
    return features, tokens

То есть, если видим явный паттерн — уже полдела сделано. Остальное — работа для большой мозговой машины.

3. Выбор и обучение модели: Ну, понятное дело, можно взять какую-нибудь готовую, но тяжёлую модель, которая жрёт оперативки, как не в себя. Но зачем? Берём что-то легковесное, вроде DistilBERT — он и умный, и шустрый. Его и будем учить на наших размеченных диалогах.

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Берём модель-заготовку
model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
# ... и начинаем её пичкать нашими данными, пока не научится отличать номер паспорта от анекдота про Штирлица

А для самого первого, прикидочного варианта, можно и вовсе логистическую регрессию на TF-IDF запустить. Работать будет, хоть и не так изящно.

4. Процесс классификации в продакшене: Вот как это будет работать в бою:

Прилетает сообщение: «Колян, скинь номер, позвонить надо».
Этап тупых правил: Регулярки пролетают мимо — явного шаблона нет. Значит, идём дальше.
Этап умной модели: Текст засовываем в нашу дообученную нейросеть. Она смотрит на слово «номер» в таком контексте и думает: «Хм, подозрение ёбать чувствую... Вероятность, что тут будут личные данные — 85%». Мы заранее выбрали порог, скажем, в 70%. Порог пройден — красная лампочка!
Решение: Сообщение помечается как подозрительное, данные в нём (если они вдруг появятся в следующем сообщении) маскируются нахер, и всё это дело логируется.

Самое сложное — этот самый порог настроить. Слишком низкий — система будет орать на каждое слово «номер», и пользователи захотят тебя взъебать. Слишком высокий — пропустишь реальную утечку, и тогда тебя взъебает уже начальство. Нужно найти золотую середину на валидационной выборке.

5. Дополнительные меры:

Активное обучение: Бывают сообщения, от которых модель в ступоре. Типа: «Встречаемся у фонтана, я в синей куртке». Это PII или нет? Куртка — это личная информация? Хуй его знает. Такие кейсы отправляем человеку-разметчику, он решает, а потом добавляем их обратно в датасет. Модель умнеет на глазах.
Пост-обработка: Ну и когда всё нашли, надо это замаскировать. Нехуй в логах светить настоящие номера. Всё заменяем на звездочки или заглушки: +7 XXX XXX-XX-XX. И спим спокойно.

Вот такая, блядь, хитрая жопа получается: тупые правила отлавливают очевидное, а умная модель додумывает за тебя, где может быть скрытая угроза. Главное — не перемудрить и не сделать систему, которая будет видеть врага в каждом слове.

Видео-ответы

▶

Собеседование Data Science: Артур Кузин/Sber Devices vs Сергей Колесников/Tinkoff | #Нанято S1E02RU Junior / Middle | Июль 2021

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки