Какие существуют способы для обнаружения сбоев в работе сервиса?

Ответ

Обнаружение сбоев — ключевая часть эксплуатации любого бэкенд-сервиса. Для этого используется комплексный подход, называемый Observability (наблюдаемость), который включает в себя:

Логирование (Logging)
- Что это: Запись событий, происходящих в приложении. Особенно важны логи с уровнями error, fatal или panic.
- Практика: Вместо простого log.Printf рекомендуется использовать структурированное логирование (например, стандартный пакет slog из Go 1.21+ или библиотеки zerolog, zap). Это позволяет легко фильтровать и анализировать логи в системах вроде ELK Stack или Loki.
Метрики (Metrics)
- Что это: Сбор числовых данных о состоянии системы в динамике. Ключевые метрики (RED-метод): Rate (частота запросов), Errors (количество ошибок), Duration (длительность обработки запросов). Также важны системные метрики: CPU, RAM, disk I/O.
- Практика: Использование Prometheus для сбора метрик и Grafana для их визуализации.
Health Checks (Проверки здоровья)
- Что это: Специальные эндпоинты, которые сообщают о состоянии сервиса. Оркестраторы (Kubernetes, Docker Swarm) используют их для автоматического перезапуска или исключения неработоспособных инстансов из балансировки.
- Практика:
  - /livez или /healthz (Liveness probe): Проверяет, что сервис в принципе жив и не завис. Если проверка падает, контейнер нужно перезапустить.
  - /readyz (Readiness probe): Проверяет, готов ли сервис принимать трафик (например, есть ли соединение с БД). Если проверка падает, сервис временно исключается из балансировщика нагрузки.
```
http.HandleFunc("/readyz", func(w http.ResponseWriter, r *http.Request) {
    if !isDatabaseConnected() {
        http.Error(w, "Database not ready", http.StatusServiceUnavailable)
        return
    }
    w.WriteHeader(http.StatusOK)
})
```
Трассировка (Tracing)
- Что это: Отслеживание пути одного запроса через несколько микросервисов. Помогает найти узкое место или сервис, на котором произошла ошибка в распределённой системе.
- Практика: Использование стандарта OpenTelemetry и инструментов вроде Jaeger или Zipkin.
Алертинг (Alerting)
- Что это: Автоматические уведомления (в Slack, PagerDuty и т.д.) при выходе метрик за пороговые значения (например, количество 5xx ошибок > 1% или latency > 300ms).
- Практика: Настройка правил алертинга в Prometheus Alertmanager или Grafana Alerts.