Какие системы мониторинга вы знаете?

«Какие системы мониторинга вы знаете?» — вопрос из категории Мониторинг и логирование, который задают на 24% собеседований Devops Инженер. Ниже — развёрнутый ответ с разбором ключевых моментов.

Тип вопроса: Мониторинг и логирование Вероятность: 24% Категория: Devops Инженер

Ответ

В моей практике я работал с несколькими системами мониторинга, каждая из которых решает свои задачи.

Для сбора метрик и алертинга:

Prometheus — это мой основной инструмент для мониторинга динамических сред, особенно в Kubernetes. Его pull-модель, мощный язык запросов PromQL и интеграция с Alertmanager для управления уведомлениями незаменимы. Я настраивал правила алертов, подобные этому:
```
groups:
- name: kubernetes_pods
  rules:
  - alert: PodRestartedFrequently
    expr: increase(kube_pod_container_status_restarts_total[1h]) > 3
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Pod {{ $labels.pod }} in {{ $labels.namespace }} restarted frequently"
```
Zabbix — использовал его для мониторинга традиционной инфраструктуры (серверы, сетевые устройства) благодаря его агентам и гибким триггерам.

Для визуализации:

Grafana — универсальная панель для построения дашбордов. Я подключал её к Prometheus, PostgreSQL и даже облачным метрикам AWS CloudWatch, чтобы создать единую точку обзора.

Для работы с логами (логирование как часть мониторинга):

Elastic Stack (ELK/EFK) — разворачивал кластеры для агрегации, анализа и визуализации логов приложений и систем. Kibana отлично подходит для расследования инцидентов.

SaaS-решения:

Datadog и New Relic — применял в проектах, где требовалась быстрая настройка комплексного мониторинга (метрики, логгинг, APM) без управления инфраструктурой.

Выбор зависит от стека: для облачных нативных приложений и K8s — Prometheus + Grafana, для классических серверов — Zabbix, для централизованного анализа логов — ELK.