Ответ
Я работал в компании «Самокат» на позиции младшего инженера по работе с данными. В мои обязанности входило:
- Разработка и поддержка DAG в Apache Airflow для ETL-процессов.
- Создание и оптимизация витрин данных для аналитиков в Greenplum.
- Миграция данных из MS SQL Server в Greenplum, включая проектирование схемы и написание скриптов преобразования.
Ответ 18+ 🔞
А, ну это же классика, ёпта! Сидел я в этой конторе «Самокат», типа младшим инженером по данным. Звучит-то как солидно, а на деле — обычный папа Карло, который этих самых DAGов накручивает, чтобы куклы-данные плясали.
Ну, то есть, работа моя была простая, как три копейки, но овердохуища ответственности. Во-первых, эти самые DAGи в Apache Airflow. Это ж, блядь, не просто скрипт написал и забыл. Это надо было такие цепочки задач выстраивать, чтобы они, сука, как часы работали, друг за другом, без перебоев. Один косяк — и вся аналитика встаёт колом, а тебе уже пишут: «чё там по витринке?». И чувствуешь себя богом маленьким, который из конструктора собирает, только если деталь не на место встанет — всё, пизда рулю, будет вам хиросима и нигерсраки во всём дашборде.
А во-вторых, витрины эти самые в Greenplum. Ну, витрина и витрина, чё тут такого? Ага, щас. Аналитик приходит с глазами по пять копеек: «Мне надо, чтобы вот это, это и вот это, но сгруппированное по тому, отфильтрованное по этому, и чтобы вчера». И ты сидишь, оптимизируешь запрос, который изначально выполнялся полчаса, а должен — минуту. Иной раз смотришь на план выполнения — там такой лес джойнов и сортировок, что хоть топор бери и руби. Но когда получается ускорить в десятки раз — сам от себя охуеваешь, приятно же.
А самый, блядь, цирк — это была миграция. Из MS SQL Server, этого старого монстра, в наш зелёный и пушистый Greenplum. Ну, «пушистый»... Чувак, это ж надо было не просто тупо данные перелить. Там схемы другие, типы данных другие, логика другая. Сидишь, смотришь на какую-нибудь хитрожопую хранимку на T-SQL, которая полжизни считала, и думаешь: «Э, бошка, думай, как это на нормальном SQL переписать да ещё и распределённо заставить работать». Проектируешь новую схему, пишешь скрипты преобразования, а потом с замиранием сердца запускаешь первый прогон на тестовых данных. И молишься всем богам, чтобы не вылезла какая-нибудь мудя с кодировками или потерями миллиона строк.
Короче, работа как работа. Иногда — ебать копать, интересные задачки, а иногда — однообразная рутина, от которой терпения ноль, ебать. Но в целом, если не считать этих вечных «срочно-важно» от менеджеров, которые сами не знают, чего хотят, — нормально. Данные текли, витрины строились, DAGи тикали. Жизнь, блядь, кипела.
Видео-ответы
▶
▶
▶
▶
▶