Что делал если ночью падал production в пострелизной поддержке

«Что делал если ночью падал production в пострелизной поддержке» — вопрос из категории Управление рисками, который задают на 23% собеседований Менеджер Проектов. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Первым делом активирую инцидентный процесс:

  1. Оповещаю ключевых участников (DevOps, разработчиков, заказчика) через согласованные каналы (Slack/Telegram)
  2. Быстро оцениваю масштаб: метрики (Grafana), логи (Kibana), алерты (Prometheus)
  3. Применяю временное решение если нужно (rollback, feature toggle)

Пример экстренного rollback через Git:

git revert <problem-commit> --no-edit  
git push origin main  
kubectl rollout restart deployment/app-service  

После стабилизации:

  • Провожу постмортем с командой
  • Фиксирую root cause и план улучшений
  • Обновляю runbook для подобных сценариев

Важно: всегда держу под рукой "красную папку" с контактами, доступами и чеклистами для критичных сервисов.