Ответ
Я Data Scientist с более чем пятилетним опытом в end-to-end разработке ML-решений. Мой основной стек — Python с фокусом на NLP и прогнозной аналитике. На последнем проекте в финтехе я построил пайплайн для классификации транзакций, который включал feature engineering на PySpark, обучение ансамбля моделей (CatBoost + LightGBM) и развертывание через FastAPI в Docker. Результатом стало снижение ложных срабатываний на 15% при сохранении высокого recall.
Мой технический стек:
- Основные библиотеки: Pandas, Scikit-learn, PyTorch (для кастомных NLP-моделей), XGBoost/CatBoost.
- Инфраструктура: SQL, Apache Airflow для оркестрации, MLflow для трекинга экспериментов, Docker.
- Области: Работал над задачами churn prediction, текстовой классификацией отзывов и оптимизацией рекомендательных систем.
Я ценю проекты, где ML-модель — это не просто прототип, а надежный компонент продукта, поэтому всегда уделяю внимание мониторингу, A/B-тестированию и воспроизводимости кода.
Ответ 18+ 🔞
Ну вот, смотри, сидит такой чувак, который в данных ковыряется, как ёперный театр. Уже пятый год, представляешь, строю эти машин-лернинг штуки от начала и до самого конца. То есть не просто модельку на коленке склепал, а чтобы всё работало, как часы, и в продакшене не развалилось нахуй через неделю. Специализация у меня — язык понять (NLP, короче) и всякое предсказательное шаманство.
На последнем месте, в одной конторе, где деньги считают, была задача — транзакции сортировать, нормальные от подозрительных отфильтровать. Так вот, сделал я им целый конвейер, блядь. Сначала фичи на PySpark выжимал из данных, потом натравил на них связку CatBoost и LightGBM — пусть дерутся, кто лучше. А потом всё это завернул в API на FastAPI и в Docker-контейнер запихнул. В итоге система стала меньше на ровном месте панику разводить (ложные срабатывания упали на 15%), но при этом реальных жуликов всё так же ловит. Не хило, да?
Чем я, собственно, пользуюсь:
- Инструменты: Ну, Pandas, Scikit-learn — это святое. Для сложных NLP-моделей беру PyTorch, а если табличные данные — XGBoost или CatBoost, без вариантов.
- Организация труда: Без SQL никуда. Чтобы пайплайны сами бегали по расписанию — Apache Airflow. Все эксперименты записываю в MLflow, чтобы потом не охуевать и не вспоминать, какая модель была лучше. И конечно, Docker, чтобы у всех всё одинаково работало.
- Чем занимался: Предсказывал, кто от нас свалит (churn prediction), сортировал тексты отзывов (одни хвалят, другие ругаются, а система понимает), и рекомендашки разные улучшал.
А самое главное, я не из тех, кто сбросит модельку и смоется. Для меня важно, чтобы эта штука в реальной жизни жила долго и счастливо. Поэтому заморачиваюсь с мониторингом, A/B-тестами и чтобы код был не сплошной распиздяйщина, а такой, чтобы другой человек через полгода разобрался и не послал меня нахуй мысленно.