Ответ
Да, активно использовал Grafana как центральный инструмент визуализации и алертинга. В моих проектах она обычно подключалась к Prometheus для системных и бизнес-метрик, к Loki для логов и к Tempo или Jaeger для трейсов, что давало единую observability-панель.
Я настраивал комплексные дашборды для отслеживания состояния кластера Kubernetes (использование CPU, памяти, сетевого трафика) и метрик приложений (латентность, RPS, rate ошибок). Важной частью была настройка алертов, которые уходили в Alertmanager, а затем в Slack или OpsGenie.
Пример алерт-правила для Prometheus, которое визуализировалось в Grafana:
# prometheus-rules.yml
- name: app-alerts
rules:
- alert: HighErrorRate
expr: rate(http_requests_total{status=~"5.."}[5m]) / rate(http_requests_total[5m]) > 0.05
for: 2m
labels:
severity: critical
team: backend
annotations:
summary: "Высокий процент ошибок 5xx в сервисе {{ $labels.service }}"
description: "Ошибки составляют {{ $value | humanizePercentage }} от общего числа запросов."
Для управления дашбордами как кодом я использовал либо Terraform с провайдером grafana/grafana, либо jsonnet с grafonnet-lib, что позволяло версионировать и ревьюить изменения в дашбордах.