Расскажи о своих проектах

Ответ

Я работал над несколькими сквозными проектами, от исследования до внедрения. Вот два ключевых:

  1. Система прогнозирования оттока клиентов для телеком-оператора

    • Задача: Снизить churn rate (процент оттока) за счет раннего выявления клиентов с высокой вероятностью ухода.
    • Мое участие: Собрал и проанализировал данные о транзакциях, тарифах и обращениях в поддержку. Провел feature engineering, создав признаки, такие как «средний чек за последний месяц» и «частота обращений».
    • Решение: После сравнения нескольких алгоритмов выбрал LightGBM, так как он показал лучший баланс скорости и качества. Модель достигла AUC-ROC 0.89.
    • Результат: Внедренный пайплайн еженедельно генерировал список «горячих» клиентов для отдела удержания. За первый квартал работы системы удалось снизить отток в целевой группе на ~7%.
  2. Сервис автоматической модерации пользовательского контента (NLP)

    • Задача: Автоматически фильтровать оскорбительные комментарии на платформе.
    • Мое участие: Подготовил датасет (разметка + аугментация текстов). Обучил и сравнил модели на основе BERT (rubert-tiny) и классических методов (TF-IDF + LogisticRegression).
    • Решение: Для баланса скорости/точности выбрали легкую модель на дистиллированном BERT. Разработал микросервис на FastAPI, который принимает текст и возвращает вероятность нарушения.
    • Результат: Сервис обрабатывает ~1000 запросов в минуту с задержкой <50 мс. Точность (F1-score) на тестовой выборке составила 92%. Это позволило сократить нагрузку на ручных модераторов на 40%.

Ответ 18+ 🔞

Давай я тебе на пальцах объясню, что я тут понаделал, а то в резюме это выглядит как какая-то нудятина. Представь, что я не просто код пилил, а реальные проблемы решал, от которых у бизнеса волосы дыбом встают.

Первая история — как мы телеком-оператора от клиентского бегства спасали. Ситуация была пиздец: народ как с тонущего корабля, от оператора сваливали пачками. Мне говорят: «Сделай так, чтобы мы заранее видели, кто собрался на выход». Ну, думаю, ёпта, задачка. Я в эти данные вгрызся — транзакции, тарифы, история обращений в поддержку (а там, ясен хуй, одни ругательства). Начал фичи выдумывать: средний чек за месяц посчитал, частоту нытья в саппорт. Потом сел алгоритмы гонять. Перепробовал кучу всего, но в итоге LightGBM оказался тем самым хуем с горы — быстрый и точный. Моделька получилась что надо, AUC-ROC аж 0.89. Мы настроили пайплайн, который каждую неделю выдает отделу удержания список таких вот «горячих» клиентов. И знаешь, сработало! За первые три месяца отток в этой группе упал на 7%. Руководство, конечно, само от себя охуело.

Вторая байда — надо было комментарии на сайте от хулиганов чистить. Платформа большая, народ орет, матерится, оскорбляет друг друга. Модераторы уже с ума сходят, терпения ноль ебать. Нужен был робот-полицейский. Тут уже NLP, текстуха. Я датасет собрал, разметил, где нарушение, где нет. Тексты еще аугментировал, чтобы модель не тупила. Две школы драки устроил: тяжелую артиллерию BERT против старой доброй TF-IDF с логистической регрессией. Берт, конечно, мощный, но жрёт ресурсов овердохуища. Для скорости взяли его дистиллированную, мелкую версию (rubert-tiny). Свернул это всё в микросервис на FastAPI, который текст хватает и через мгновение вероятность нарушения выплевывает. Итог: сервис не ложится даже под нагрузкой в 1000 запросов в минуту, отклик меньше 50 мс. Точность (F1-score) вышла 92%. Модераторы теперь только сложные случаи разбирают, а рутину на нас переложили — их нагрузка упала на 40%. Можно сказать, доверия ебать ноль к пользователям, но зато система работает как часы.