Расскажи о себе

Ответ

Я Data Scientist с более чем пятилетним опытом в end-to-end разработке ML-решений. Мой основной стек — Python с фокусом на NLP и прогнозной аналитике. На последнем проекте в финтехе я построил пайплайн для классификации транзакций, который включал feature engineering на PySpark, обучение ансамбля моделей (CatBoost + LightGBM) и развертывание через FastAPI в Docker. Результатом стало снижение ложных срабатываний на 15% при сохранении высокого recall.

Мой технический стек:

  • Основные библиотеки: Pandas, Scikit-learn, PyTorch (для кастомных NLP-моделей), XGBoost/CatBoost.
  • Инфраструктура: SQL, Apache Airflow для оркестрации, MLflow для трекинга экспериментов, Docker.
  • Области: Работал над задачами churn prediction, текстовой классификацией отзывов и оптимизацией рекомендательных систем.

Я ценю проекты, где ML-модель — это не просто прототип, а надежный компонент продукта, поэтому всегда уделяю внимание мониторингу, A/B-тестированию и воспроизводимости кода.

Ответ 18+ 🔞

Ну вот, смотри, сидит такой чувак, который в данных ковыряется, как ёперный театр. Уже пятый год, представляешь, строю эти машин-лернинг штуки от начала и до самого конца. То есть не просто модельку на коленке склепал, а чтобы всё работало, как часы, и в продакшене не развалилось нахуй через неделю. Специализация у меня — язык понять (NLP, короче) и всякое предсказательное шаманство.

На последнем месте, в одной конторе, где деньги считают, была задача — транзакции сортировать, нормальные от подозрительных отфильтровать. Так вот, сделал я им целый конвейер, блядь. Сначала фичи на PySpark выжимал из данных, потом натравил на них связку CatBoost и LightGBM — пусть дерутся, кто лучше. А потом всё это завернул в API на FastAPI и в Docker-контейнер запихнул. В итоге система стала меньше на ровном месте панику разводить (ложные срабатывания упали на 15%), но при этом реальных жуликов всё так же ловит. Не хило, да?

Чем я, собственно, пользуюсь:

  • Инструменты: Ну, Pandas, Scikit-learn — это святое. Для сложных NLP-моделей беру PyTorch, а если табличные данные — XGBoost или CatBoost, без вариантов.
  • Организация труда: Без SQL никуда. Чтобы пайплайны сами бегали по расписанию — Apache Airflow. Все эксперименты записываю в MLflow, чтобы потом не охуевать и не вспоминать, какая модель была лучше. И конечно, Docker, чтобы у всех всё одинаково работало.
  • Чем занимался: Предсказывал, кто от нас свалит (churn prediction), сортировал тексты отзывов (одни хвалят, другие ругаются, а система понимает), и рекомендашки разные улучшал.

А самое главное, я не из тех, кто сбросит модельку и смоется. Для меня важно, чтобы эта штука в реальной жизни жила долго и счастливо. Поэтому заморачиваюсь с мониторингом, A/B-тестами и чтобы код был не сплошной распиздяйщина, а такой, чтобы другой человек через полгода разобрался и не послал меня нахуй мысленно.