Собрали для вас самые полезные статьи по Site Reliability Engineering. В материалах ниже вы найдете полезные кейсы, информацию о внедрении SRE и применении отдельных практик ⤵️
1️⃣ Error Budget, SLO и мониторинг: советы для начинающих SRE-инженеров
Книга Google о SRE, статьи экспертов, документация и обучающие курсы дают исчерпывающие знания о том, как в идеале должен работать SRE в компаниях. Правда, ключевое здесь – «в идеале». В этой статье мы поговорим о выстраивании рабочего процесса на старте, когда вам нужно выставить первый SLO, рассчитать error budget и мирно обо всем договориться с командой разработки и бизнесом.
📋 Читать статью
2️⃣ Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженеры
Установка SLO (Service Level Objective, целевых уровней обслуживания) — одна из базовых задач SRE. По этим показателям удобно оценивать надежность службы. Противоположность SLO — бюджет на ошибки, то есть какой уровень ненадежности считать допустимым. Когда мы определим эти показатели и установим SLO, нужно проверить их реалистичность с учетом архитектуры приложения и рабочих практик. Мы точно сможем их достичь? На что, скорее всего, уйдёт наш бюджет на ошибки?
📋 Читать статью
3️⃣ Пять инструментов Site Reliability Engineering
Надежность (reliability) программного продукта всегда является одним из приоритетов компании. Особенно это актуально для ПО, превратившегося в ежедневный инструмент для своих пользователей. Они рассчитывают на заявленный функционал, поэтому любая невозможность его использования подрывает доверие, а следовательно, и желание им пользоваться. В этой статье пойдет речь о главных инструментах Site Reliability Engineering (SRE) и о том, как они влияют на повышение надежности систем.
📋 Читать статью
4️⃣ «Цель SRE — надёжная система». Обзор основных метрик SRE
Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году. В статье опишем, как SRE-подход соотносится с DevOps, какие задачи решает инженер по SRE и о каких показателях заботится.
📋 Читать статью
5️⃣ Как строить надежные, стабильные и отказоустойчивые IT-системы: главное об SRE и SLO
К современным IT-системам предъявляются очень жесткие требования — они должны быть доступны практически 24/7, чтобы выдерживать конкуренцию на рынке. Для обеспечения такой надежности и доступности существует особый подход — SRE, Site Reliability Engineering. В статье рассказываем, что такое подход SRE, зачем он нужен, какие критерии надежности существуют и как их определять.
📋 Читать статью
6️⃣ Как мониторить золотые сигналы SRE
Принципы Site Reliability Engineering (SRE) в последнее время очень популярны, отчасти благодаря знаменитой книге о SRE в Google, где говорится о золотых сигналах, за которыми нужно следить, чтобы наши системы работали быстро и безотказно в любых масштабах. Все понимают, что это важные сигналы, но не все знают, как их отслеживать. В статье разбираются сами сигналы, подход к их использованию в мониторинге и руководства по мониторингу сигналов в конкретных сервисах.
📋 Читать статью
7️⃣ 4 важных отличия DevOps от SRE
Если вы знаете, что такое Site Reliability Engineering, вам может быть интересно, как эти практики связаны с DevOps. Важно сразу оговориться, что мы не ставим между ними слово «против». Хотя у этих подходов есть некоторые отличия в том, как лучше делать и быстрее доставлять программное обеспечение. В этой статье разберём каждый подход и выясним, чем отличаются DevOps и SRE.
📋 Читать статью
8️⃣ SRE: Распределённая и централизованная модели управления инцидентами
Внедрение SRE-практик в компаниях может происходить по-разному. Где-то решение об этом принимает менеджмент, где-то это может быть инициатива снизу. В любом случае может встать вопрос: как организовать реагирование на инциденты и кто будет брать на себя лидерство в командах во время инцидента Перевели статью о двух моделях структуры для команд управления инцидентами — распределенной и централизованной. В ней рассматриваются плюсы и минусы каждой из моделей, а также примеры того, как каждая из них выглядит.
📋 Читать статью
9️⃣ Как реализован SRE подход в Power BI
Команда Power BI рассказала, как она обеспечивает надёжную, производительную и масштабируемую работу своего сервиса. В этой статье вы узнаете, как в Power BI устроен мониторинг состояния сервиса, как SRE команды устраняют инциденты и принимают меры по улучшению сервисов.
📋 Читать статью
Дайджест подготовлен в рамках продвижения курса «SRE: data- driven подход к управлению надежностью систем».
Источник новости: habr.com