Спикеры Слёрма объясняют абстрактные вещи с помощью простых жизненных примеров. Так Whitebox и Blackbox подходы к мониторингу на курсе «SRE: Observability» рассматривают на примере очереди в банк.
Итак, очередь — это реальная проблема для бизнеса, потому что клиенты злятся. Чтобы её решить, нужно выяснить причины. Попробуем мониторить очередь в банк с помощью этих двух подходов.
При Blackbox-подходе мы наблюдаем внешние проявления системы:
1. Размер очереди.
2. Скорость продвижения людей в ней.
Что нам это даёт? Мы удостоверились, что проблема существует, оценили масштаб.
При WhiteBox-подходе мы мониторим очередь изнутри. То есть наблюдаем:
1. Типы обращений очереди, тематика талончиков.
2. Количество работающих окошек.
3. Количество людей в каждое окошко.
4. Количество вышедших на смену операторов.
Во втором случае у нас больше метрик и они достаточно полезные для понимания причин проблемы. Но нужно помнить, что эти метрики в отрыве от общего контекста не всегда говорят о проблеме. Допустим, если закрылись 3 окошка из 5. Это уже проблема или ещё нет? Нет, если из-за этого ещё не образовалась очередь. Если уже образовалась, то проблема.
☝️ Если вы хотите научиться сочетать Blackbox и Whitebox подходы, видeть причины и следствия и повысить надежность системы, приходите на курс SRE: Observability.Что в программе
Курс состоит из трёх основных блоков:
1️⃣ Мониторинг. Научимся работать с основными Golden Signals SRE и узнаем, как ими обвесить любой сервис для эффективного мониторинга и оповещения.
✔️ Настроим Golden Signals и посмотрим, как они работают в разрезе реальных приложений.
✔️ Поработаем с разными инфраструктурными паттернами.
✔️ Выясним, как их лучше покрывать метриками.
2️⃣ Алертинг. Настроим систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений. Научимся настраивать алерты, учитывая anomaly detection: сезонность, тенденции рынка и другие внешние условия. Мастер-класс поможет понять и научиться использовать методы математической статистики при работе с метриками.
✔️ Построим сложные сценарии системы алертов.
✔️ Научимся настраивать Silence periods для алертов так, чтобы они не спамили в момент работы на инциденте.
✔️ Разберем примеры и практики того, как применять методы математической статистики.
3️⃣ Мониторинг множества сервисов. Научимся приоритизировать таски даже в ситуациях, когда продакт каждого из 100 сервисов говорит, что их задача самая критичная.
✔️ Поработаем с прозрачными бизнес-метриками надежности приложения.
✔️ Разберём аспекты использования приложения пользователями для того, чтобы иметь легко измеряемую надежность через стартовые точки.
✔️ Узнаем, как построить систему метрик для множества сервисов и понимать, что каждый сервис надёжен по отдельности.Что понадобится для прохождения курса
Этот курс для тех, кто уже имеет базовые знания о SRE-практиках, у кого уже внедрены error budget и SLO, но эти процессы не отработаны до конца. А также для тех, кто хочет повысить отказоустойчивость системы.
Будет хорошо, если у вас есть:
✅ навыки программирования (Python),
✅ навыки работы с Linux,
✅ опыт работы с Kubernetes,
✅ опыт настройки мониторинга в Prometheus, Grafana и др.
Новый поток «SRE: Observability» стартует 24 июля. Вас ждут вебинары со спикером и практика на специально разработанном приложении по бронированию билетов в кинотеатрах, состоящем из нескольких микросервисов.
Цена — 45 000 ₽
👉 Посмотреть программу и оставить заявку можно на нашем сайте.
Стоять в очереди не придётся 😉
Источник новости: habr.com