Надёжность IT-инфраструктуры зависит от множества факторов. Чем развесистей инфра, тем больше узких мест и тайных углов, откуда неожиданно ночью может прилететь алерт. Важно чтобы ваши специалисты в этой ситуации не только знали систему как свои пять пальцев, но и умели работать команде и извлекать из каждого инцидента полезный опыт.
Присмотритесь к SRE-практикам. Они помогают повысить надёжность, когда стоимость минуты простоя сервиса уже очень высока.
3 октября мы запускаем новый поток курса Site Reliability Engineering. На нём можно научиться работать с метриками, организовывать работу SRE-команд и сформировать понимание SRE-практик.
На курсе вы:
🟢 Научитесь внедрять правки прямо в прод;
🟢 Узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;
🟢 Поймёте, какие метрики собирать и как это делать правильно;
🟢 Научитесь быстро поднимать продакшн силами команды;
🟢 Узнаете, как снизить ущерб от отказов в будущем.
Мы разработали программу курса совместно с SRE-инженерами из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.
Новая культура производства приведет к следующим изменениям:
🟢 Снизится процент отказа сервиса;
🟢 Повысится скорость реагирования ни сбои;
🟢 Будет меньше рисков при выкатке новых фич;
🟢 Увеличится скорость разработки.
SRE решает похожие проблемы, что и DevOps. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».
Старт потока: 3 октября.
Посмотрите подробную программу на нашем сайте.
Источник новости: habr.com