Работали ли вы с системами мониторинга?

Question

Работали ли вы с системами мониторинга?

Тип вопроса: Мониторинг и логирование Вероятность: 36% Категория: Devops Инженер

Ответ

Да, я настраивал и поддерживал стек мониторинга на основе Prometheus и Grafana, а также работал с ELK для логов.

Prometheus/Grafana:

Развертывал Prometheus в Kubernetes через Helm-чарт, настраивал сбор метрик с узлов (node-exporter), приложений и баз данных (PostgreSQL exporter).
Создавал правила алертинга (Alertmanager) для уведомлений в Slack и PagerDuty при превышении порогов по использованию CPU, памяти или ошибкам приложения.
В Grafana разрабатывал дашборды для отслеживания бизнес-метрик (RPS, latency) и инфраструктурных показателей.

Пример конфигурации Prometheus для сбора метрик с приложения:

scrape_configs:
  - job_name: 'myapp'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      - source_labels: [__meta_kubernetes_pod_label_app]
        regex: 'myapp'
        action: keep

ELK-стек (Elasticsearch, Logstash, Kibana):

Настраивал сбор логов через Filebeat, который отправлял логи контейнеров и системных сервисов в Logstash для парсинга и обогащения, а затем в Elasticsearch.
Создавал индексы с политиками жизненного цикла (ILM) для автоматического ротирования старых логов.
Визуализировал логи и строил графики в Kibana для анализа инцидентов.

Ответ 18+ 🔞

А, ну это ж моя родная стихия, блядь! Я с этими штуками так намаялся, что теперь могу настраивать их с закрытыми глазами, ёпта.

Prometheus с Grafana — это вообще отдельная песня, ебать мои старые костыли. Разворачивал я этого Prometheus'а в кубере через Helm — стандартная история. Настроил, чтобы он метрики со всей хуйни собирал: с самих серверов (node-exporter), с приложух наших и даже с базы данных (PostgreSQL exporter поднял). Потом накрутил алертинга через Alertmanager, чтобы, если что-то пиздец как перегревается или отваливается, сразу сигнал в Slack и PagerDuty летел. А в Grafana наделал дашбордов — и чтобы бизнес-метрики (запросы в секунду, задержки) видны были, и чтобы по инфраструктуре всё как на ладони.

Вот, смотри, как я ему обычно говорил, с какого приложения метрики хавать:

scrape_configs:
  - job_name: 'myapp'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      - source_labels: [__meta_kubernetes_pod_label_app]
        regex: 'myapp'
        action: keep

Просто и понятно, без всякой ерунды.

А ELK-стек (Elasticsearch, Logstash, Kibana) — это уже для настоящих мазохистов, ядрёна вошь. Тут уже логи пошли. Настроил Filebeat, чтобы он всё, что приложения и система в консоль плюют, ловил и тащил в Logstash. Тот их там парсит, чистит, обогащает — в общем, делает человекочитаемыми, а потом пихает в Elasticsearch. Чтобы индексы не росли до овердохуища, настроил политики (ILM), чтобы старьё само удалялось. Ну а в Kibana потом можно было как бог — искать по логам, графики строить, когда какой инцидент разгребаешь. Без этого вообще нихуя не понять, что с системой происходит, доверия ебать ноль к голым догадкам.