Ответ
В критических ситуациях действую по принципу "остановись, оцени, действуй". Сначала фиксирую проблему (например, падение продакшена), затем анализирую root cause через логи и метрики.
Пример: при падении API из-за deadlock в БД:
- Включил режим обслуживания
- Собрал thread dumps (
jstack <PID>) - Выявил заблокированные транзакции через
SHOW ENGINE INNODB STATUS - Разработал хотфикс с оптимизацией запросов и таймаутами
Всегда:
- Держу шаблоны postmortem-отчетов
- Использую feature flags для быстрого отката
- Коммуницирую статус по схеме: "что случилось → что делаем → ETA"
После инцидента провожу blameless-разбор с командой и обновляю runbooks.