Для чего использовал Grafana?

Question

Для чего использовал Grafana?

Тип вопроса: DevOps Вероятность: 24% Категория: PHP Разработчик

Ответ

Я использовал Grafana как центральную панель для мониторинга и observability (наблюдаемости) распределённых систем. Её основная ценность — агрегация данных из разных источников и их интуитивная визуализация для быстрого анализа.

Мои типичные use cases:

Мониторинг инфраструктуры и приложений:
- Подключал дашборды к Prometheus для отображения метрик с хостов (CPU, память, диск) и приложений (JVM-метрики, HTTP-запросы в секунду, latency).
- Создавал алерты на основе этих метрик (например, на рост 95-го перцентиля времени ответа API выше 500 мс).
Анализ бизнес-метрик: Настраивал подключение к PostgreSQL или ClickHouse для визуализации ключевых бизнес-показателей в реальном времени: количество регистраций, активных пользователей, завершённых транзакций.
Трассировка и логи: Интегрировал с Loki для поиска по логам и с Tempo/Jaeger для визуализации трейсов (трассировок) запросов в микросервисной архитектуре. Это позволяло быстро увидеть, в каком сервисе или запросе к БД происходит задержка.

Пример панели: Я создавал дашборд для сервиса, который отображал на одном экране: график RPS (запросов в секунду), график latency, процент ошибок 5xx, потребление памяти и CPU основными pods в Kubernetes, а также список последних ошибок из логов. Это давало полную картину здоровья сервиса.

Ответ 18+ 🔞

Блин, слушай, вот реально крутая штука — Grafana. Это ж как та приборная панель у тачки, только для всей твоей цифровой хуйни. Вместо спидометра и датчика температуры — графики, которые показывают, не горит ли твой сервис синим пламенем. Ценность её, ёпта, в том, что она собирает данные отовсюду, где только можно, и рисует их так, что даже менеджер, если не сильно тупой, поймёт, где у нас пиздец.

Что я на ней обычно делал, аж терпения ноль ебать, пока всё настроишь:

Слежка за железками и софтом:
- Цеплял её к Prometheus, чтобы смотреть, как там поживают сервера. Ну там, процессор не в огне ли, память не кончается, диск не трещит. И за приложениями — сколько запросов в секунду ловит, как быстро отвечает. Создавал алерты, чтобы, если что-то пошло не так (например, если 95% запросов начинают тормозить дольше 500 мс), сразу в телегу или слак прилетала весточка, мол, «чувак, у нас пизда рулю».
Циферки для бизнеса: Подключал её напрямую к базам — к PostgreSQL или ClickHouse. Чтобы всякие начальники могли в реальном времени смотреть, сколько у нас там пользователей набежало, сколько денег просело, сколько транзакций прошло. Визуализация — сила, иначе эти пидоры в пиджаках нихуя не въедут.
Поиск причины, когда всё уже накрылось медным тазом: Интегрировал с Loki, чтобы по логам рыскать, и с Tempo, чтобы смотреть трейсы. Это когда у тебя запрос по десяти микросервисам скачет, а где-то один нихуя не отвечает. Grafana с трейсами покажет тебе сразу — ага, вот этот сервис, сука, на запрос к базе три секунды думает, вот где узкое горлышко! Удивление пиздец, когда находишь.

Вот тебе живой пример: Делал я как-то дашборд для одного API. На одном экране было всё: график запросов в секунду (RPS), график задержек (latency), процент ошибок «внутренняя ошибка сервера» (5xx), потребление памяти и CPU основными подами в кубере, и ещё список последних ошибок из логов прям под ними. Открываешь утром одну вкладку в браузере — и ты уже в курсе, жив ли твой сервис или его ночью гомосеки налетели. Полная картина, блядь, здоровья. Красота, а не инструмент.

Видео-ответы

▶

Собеседование с техническим директором и директором по контенту, Тильда паблишинг Middle | Сентябрь 2024

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки