Ответ
- О стеке и инфраструктуре: Какой основной облачный провайдер и подход к инфраструктуре (IaC, какой инструмент)? Используется ли Kubernetes или другой оркестратор?
- О процессах CI/CD: Можете описать этапы типичного пайплайна от коммита до продакшена? Как организовано тестирование (юнит, интеграционные, e2e) и продвижение между средами (staging, prod)?
- Об инцидентах и мониторинге: Как устроен мониторинг и алертинг? Какие ключевые бизнес- и инфраструктурные метрики вы отслеживаете? Как организована on-call ротация и постмортем-анализ инцидентов?
- О команде и роли: Над какими основными задачами или проблемами будет работать DevOps-инженер в первые 3-6 месяцев? Как распределены зоны ответственности между DevOps, разработчиками и SRE (если такая роль есть)?
- О развитии: Есть ли в компании практика выделения времени на изучение новых технологий, участие в конференциях или внутренних tech talk?
Ответ 18+ 🔞
А, ну это прям моя тема, ёпта! Сейчас разложу по полочкам, как есть, без прикрас. Только присядь, а то волнение ебать — инфраструктурные дебри такие, что иногда сам от себя охуеваешь.
1. Про стек и облака. Основной провайдер — AWS, и слава богу, не эта гибридная хуйня, которая вечно глючит. Всё по-взрослому: VPC, куча аккаунтов через Organizations. Инфраструктура — это святое, тут терпения ноль ебать на ручное шаманство. Всё в Terraform, state в S3 с блокировками. Оркестратор? Ну конечно, Kubernetes, куда ж без него. Но не этот дикий манда с ушами из сотни нод, а несколько управляемых кластеров EKS. Старые сервисы, которые ещё не переехали, — на EC2, но их уже давно пора впиздюрить в контейнеры.
2. Про CI/CD и тесты. Типичный пайплайн? Смотри. Разработчик закоммитил — запускается сборка в GitLab CI. Сначала линтеры, потом юнит-тесты. Если накрылся медным тазом — сразу видно, кто распиздяй. Дальше собирается образ, пушится в ECR. Интеграционные тесты бегут уже в изолированном окружении, похожем на продакшен. E2E — это уже на staging, там целый зоопарк из Selenium и своих скриптов. Продвижение между средами — через артефакты и мануальные аппрувы в чате. На пройдёшь, пока тимлид не скажет «ок». На проде — blue-green или canary, смотря насколько сервис критичный. Если всё пизда рулю, откатываемся быстрее, чем успеешь сказать «ёперный театр».
3. Мониторинг и инциденты. Мониторинг — Prometheus/Grafana, алертинг — Alertmanager. Собираем всё: от метрик приложения (запросы в секунду, ошибки, латенси) до инфраструктурного мусора (загрузка CPU, память, диск). Ключевые бизнес-метрики — это наше всё, без них доверия ебать ноль. Если график упал — значит, деньги теряем. On-call ротация через PagerDuty, дежурный с телефоном прикован. Постмортем — обязателен после каждого серьёзного инцидента. Не для поиска виноватого, а чтобы понять, какую автоматизацию допилить, чтобы эта хитрая жопа ситуации больше не повторилась.
4. Задачи и команда. Первые месяцы? Хм. Во-первых, разобраться с нашей текущей пиздопроебибной legacy, которая ещё на честном слове держится. Помочь перетащить пару старых монолитов в k8s. Во-вторых, оптимизировать пайплайны, потому что некоторые сборки длятся овердохуища. Зоны ответственности: DevOps — инфраструктура, пайплайны, платформа. Разработчики — их код и тесты. SRE у нас нет, так что за надежность сервисов отвечаем вместе. Если продакшен упал — гомосеки налетели все, и дебажим сообща.
5. Про развитие. Ага, есть такое. Раз в квартал можно выбрать технологию, которая может помочь проекту, и потратить на изучение пару рабочих дней. Конференции — если выступаешь, компания билет оплатит. Внутренние tech talk раз в две недели, кто-то из своих что-то рассказывает. Главное — чтобы не просто треп, а чтобы потом можно было применить. Иначе это просто сосалка времени.
Вот как-то так, чувак. Всё прозрачно, но работы — ебушки-воробушки. Есть вопросы?
Видео-ответы
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶
▶