Путь к Site Reliability Engineer лежит через богатый опыт, знания по мониторингу, observability и SRE-практикам. Собрали в один комплект три курса Слёрма, которые помогут преодолеть этот путь.Шаг 1. Курс «Мониторинг в Grafana».
Grafana — мощный инструмент для мониторинга и визуализации данных. Он позволяет создавать информативные дашборды о состоянии системы, интегрировать его с другими системами мониторинга, использовать для отслеживания метрик и статистики приложений.
Но перед тем, как научиться собирать дашборды и читать графики, нужно освоить сбор метрик. Это в курсе тоже есть — будем работать со связкой Prometheus+Grafana.
Вот что ещё будет на этом курсе:
✔️ Разберёмся, зачем нужен мониторинг и дадим ему определение, узнаем о методологии.
✔️ Настроим необходимое для работы окружение: именно Grafana, Prometheus и Alertmanager.
✔️ Разберёмся с моделью данных в Prometheus. Узнаем, какие типы метрик есть, чем они отличаются и для чего используются.
✔️ Научимся работать с основными функциями PromQL и напишем несколько запросов.
✔️ Соберем первый dashboard «4 goled signals» и проверим определенные метрики.
✔️ Узнаем более продвинутые техники для работы с Grafana
👉 Посмотреть полную программу курса.Шаг 2. Курс «SRE: data driven подход к управлению надежностью систем».
Даже если у вас настроен мониторинг, всё равно есть риски сбоев. Поэтому нужно научиться быстро и эффективно решать проблемы. Для этого существует SRE.
На этом курсе:
✔️ Узнаем, как снизить ущерб от отказов в будущем.
✔️ Внедрим правки прямо в прод;
✔️ Узнаем, как решать конкретные проблемы, связанные с надежностью сервиса;
✔️ Поймём, какие метрики собирать и как это делать правильно;
✔️ Научимся быстро поднимать продакшн силами команды.
Эти знания помогут вам повысить отказоустойчивость системы и стать востребованным специалистом, потому что всё больше компаний внедряют практики SRE.
👉 Посмотреть полную программу курса. Курс стартует 22 августа.Шаг 3. Курс «SRE: observability».
Observability — показатель того, насколько легко мы можем понять внутреннее состояние системы по её внешним проявлениям. Если мониторинг — это действие, то observability — это свойство системы. Когда наши IT-системы и приложения не дают нам заглянуть внутрь, никакой мониторинг тут не поможет.
Этот курс подойдет инженерам с базовыми знаниями SRE-практик, командам, которым нужно наладить внутренние процессы и научиться настраивать мониторинг, а также компаниям, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца.
Вот на какие вопросы поможет ответить этот курс:
✔️ как увидеть инцидент в зачатке на графике и по алерту, и предотвратить панику и стресс в моменте;
✔️ как увидеть и оценить результаты работы над надежностью;
✔️ как договориться с бизнесом, что делать: выкатывать фичи или работать над надежностью;
✔️ как строить понятные разработке и бизнесу метрики, если у тебя 100 микросервисов и продакт каждого считает, что он самый важный;
✔️ как объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в момент инцидента.
👉 Посмотреть полную программу курса. Курс стартует 25 сентября.Комплектом выгоднее
Цена комплекта по SRE — 140 000 ₽. Цена курсов по отдельности — 165 000 ₽. Экономия — 25 000 ₽.
👉 Оформить комплект ❗️Листайте лендинг до конца вниз, чтобы найти информацию о комплекте и оставить заявку.
Источник новости: habr.com