Какие ключевые метрики важны для мониторинга брокера сообщений (например, RabbitMQ, NATS, Kafka)?

Question

Какие ключевые метрики важны для мониторинга брокера сообщений (например, RabbitMQ, NATS, Kafka)?

Тип вопроса: DevOps Вероятность: 10% Категория: Golang Разработчик

Ответ

Мониторинг брокера сообщений критически важен для обеспечения надежности и производительности асинхронной архитектуры. Ключевые метрики можно сгруппировать следующим образом:

1. Производительность и пропускная способность

Message Rate (In/Out): Скорость публикации и потребления сообщений (сообщений/сек). Помогает понять текущую нагрузку.
Message Latency: Задержка от момента публикации сообщения до его потребления (P95, P99). Ключевой показатель производительности.
Network Throughput: Входящий и исходящий сетевой трафик (байт/сек).

2. Состояние очередей и потребителей

Queue Length (Backlog): Количество сообщений в очереди, ожидающих обработки. Рост этого показателя — главный индикатор проблем с потребителями (consumers).
Unacknowledged Messages: Число сообщений, которые были доставлены потребителям, но еще не подтверждены (acked). Большое количество может указывать на медленную обработку или зависших потребителей.
Number of Consumers: Количество активных потребителей для очереди. Резкое падение до нуля сигнализирует об отказе сервиса-обработчика.

3. Использование ресурсов

CPU Utilization: Нагрузка на процессор. Высокая утилизация может замедлять обработку.
Memory Usage: Потребление оперативной памяти. Важно для предотвращения OOM (Out of Memory) ошибок.
Disk I/O и Disk Space: Активность диска и свободное место, особенно для брокеров, которые персистентно хранят сообщения (например, RabbitMQ, Kafka).

4. Ошибки и состояние здоровья

Error Rates: Количество ошибок, таких как сбои доставки, ошибки аутентификации, таймауты.
Connection Count: Общее число активных подключений к брокеру.

Примечание: Для брокеров, написанных на Go (например, NATS), также важны внутренние метрики Go runtime: количество горутин и длительность пауз GC.

Пример метрики для Prometheus (размер очереди с меткой):

queueLength = prometheus.NewGaugeVec(
    prometheus.GaugeOpts{
        Name: "broker_queue_length",
        Help: "Current message queue size.",
    },
    []string{"queue_name"}, // Метка для отслеживания конкретной очереди
)

// Использование
queueLength.WithLabelValues("user_events").Set(42)

Ответ 18+ 🔞

А, ну вот, смотри, опять про эту вашу асинхронщину, блядь! Мониторить брокер сообщений — это как за котом, который срет в тапки, следить. Не уследишь — будет пиздец, а не архитектура.

Короче, метрики, на которые надо глаз положить, как на врага, вот они.

1. Скорость и задержки, ёпта

Скорость сообщений (Вход/Выход): Сколько в секунду влетает и вылетает. Если цифры как у космического корабля, а у тебя потребители — как старые кобылы, то всё, приехали.
Задержка (Latency): Время от «ой, отправил» до «а, дошло». Смотри на P95 и P99, а не на среднюю температуру по больнице, блядь. Если P99 зашкаливает — у кого-то там в цепочке жопа.
Сетевой трафик: Сколько байтиков туда-сюда летает. Внезапный рост — подозрение ебать чувствую, кто-то начал ворочать гигабайтами логов, сука.

2. Очереди и потребители — тут собака зарыта, блядь!

Длина очереди (Backlog): Это главный индикатор, ёбана! Сколько сообщений висит, как груз неотвеченных долгов. Если число растёт быстрее, чем грибы после дождя — твои потребители сдохли или просто нихуя не успевают. Тревога, пиздец!
Неподтверждённые сообщения (Unacked): Сообщения, которые потребитель взял, но ещё не сказал «ок, обработал». Много таких — значит, потребитель либо тупит, либо его уже нет, а он призраком висит. Надо гнать в шею!
Количество живых потребителей: Сколько их там, активных. Упало до нуля? Ну всё, сервис-обработчик накрылся медным тазом. Поднимай, блядь, алерт!

3. Ресурсы брокера — чтоб не сдох

Загрузка CPU: Если процессор пыхтит, как паровоз, и утилизация под 100% — скоро всё встанет колом, блядь.
Память (Memory Usage): Особенно для тех, кто всё в ОЗУ держит. Кончится память — брокер ляжет с OOM, и будет тебе веселье.
Диск (I/O и место): Для тех, кто сообщения на диск пишет (типа RabbitMQ, Kafka). Если диск заляжет или место кончится — пиши пропало, сообщения начнут теряться, как носки в стирке.

4. Ошибки и здоровье

Счётчики ошибок: Неудачи доставки, таймауты, кривые авторизации. Любой рост — повод засунуть нос в логи и выяснить, кто тут у нас хуйню делает.
Число подключений: Сколько всего клиентов висит на брокере. Внезапный обрыв всех соединений — волнение ебать, с сетью или с самим брокером что-то не так.

Важный момент, нахуй: Если брокер на Go (типа NATS), не забудь глянуть на его внутренности — сколько там горутин развелось и как долго сборщик мусора (GC) мозги выносит. Внезапный рост горутин — это как тараканы, нах, надо искать, откуда лезут.

Пример кода для Prometheus (размер очереди):

queueLength = prometheus.NewGaugeVec(
    prometheus.GaugeOpts{
        Name: "broker_queue_length",
        Help: "Current message queue size.",
    },
    []string{"queue_name"}, // Метка для отслеживания конкретной очереди
)

// Использование
queueLength.WithLabelValues("user_events").Set(42)

Вот, поставил метрику на очередь user_events и висит там 42 сообщения. Если через минуту там уже 100500 — беги разбираться, кто из потребителей обосрался и перестал работать, ебать его в сраку!