Ответ
Первым делом активирую инцидентный процесс:
- Оповещаю ключевых участников (DevOps, разработчиков, заказчика) через согласованные каналы (Slack/Telegram)
- Быстро оцениваю масштаб: метрики (Grafana), логи (Kibana), алерты (Prometheus)
- Применяю временное решение если нужно (rollback, feature toggle)
Пример экстренного rollback через Git:
git revert <problem-commit> --no-edit
git push origin main
kubectl rollout restart deployment/app-service
После стабилизации:
- Провожу постмортем с командой
- Фиксирую root cause и план улучшений
- Обновляю runbook для подобных сценариев
Важно: всегда держу под рукой "красную папку" с контактами, доступами и чеклистами для критичных сервисов.