Работал ли с Grafana?

«Работал ли с Grafana?» — вопрос из категории Мониторинг и логирование, который задают на 29% собеседований Devops Инженер. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Да, активно использовал Grafana как платформу для визуализации и алертинга в стеке мониторинга.

Мой опыт включает:

  • Создание и поддержку дашбордов для мониторинга инфраструктуры (узлы, сети) и бизнес-метрик приложений. Основные источники данных — Prometheus и Loki.
  • Настройку алертов через встроенный Alerting engine или интеграцию с Alertmanager. Правила алертов хранил рядом с кодом (GitOps-подход).
    # Пример правила алерта для Prometheus (alerts.yml)
    - alert: HighPodMemoryUsage
      expr: sum(container_memory_working_set_bytes{pod!=""}) by (pod) / 1024^3 > 2
      for: 5m
      annotations:
        description: 'Pod {{ $labels.pod }} is using {{ $value }} GB of memory.'
  • Автоматизацию развертывания дашбордов с помощью Terraform (провайдер grafana/grafana) или утилиты grafana-cli, что обеспечивало консистентность между средами.
  • Интеграцию с каналами уведомлений: Slack, Email, PagerDuty.

Пример панели для отслеживания HTTP-ошибок с запросом к PromQL:

sum(rate(http_requests_total{status=~"5.."}[5m])) by (service, endpoint)

В DevOps Grafana — это ключевой инструмент для обеспечения observability и оперативного реагирования на инциденты.