Microsoft признала, что глобальный почти пятичасовой сбой в сетевой инфраструктуре компании произошёл из-за ошибки, сделанной сетевыми инженерами, при внесении изменений в конфигурацию WAN-маршрутизаторов.
«Инцидент с отказом сервисов был вызван изменением IP-адреса WAN-маршрутизаторов с помощью команды, которая не была тщательно проверена и ведёт себя по-разному на разных сетевых устройствах», — пояснили в Microsoft.
В компании заверили, что изменения в конфигурацию маршрутизаторов вносили сетевые инженеры в рамках запланированных работ для обновления IP-адресов на WAN-маршрутизаторах. После неправильно проведённой процедуры изменения конфигурации началось каскадное отключение WAN-маршрутизаторов Microsoft от других маршрутизаторов в глобальной сети. Устройства обновили свои таблицы маршрутизации и исключили из переадресации автономные системы Microsoft, а также системы управления трафиком компании для оптимизации потоков данных в глобальной сети.
После анализа ситуации и изучения неправильной конфигурации сетевые инженеры компании вручную откатили ранее внесённые изменения. Через некоторое время они успешно восстановили работоспособность облачных сервисов Microsoft.
После этого инцидента Microsoft выпустила запрет для проведения подобных работ. Компания решила блокировать выполнение любых изменений в конфигурации сетевых устройств, которые не соответствуют рекомендациям по безопасным изменениям в конфигурации и не проверены на всём парке сетевого оборудования.
25 января 2023 года инженеры Microsoft спустя четыре часа подняли все основные сервисы после глобального сбоя. Проблема затронула сотни миллионов пользователей по всему миру. Нештатная ситуация произошла из-за ошибки в сетевой инфраструктуре компании.
Корпоративным заказчикам и обычным пользователям были недоступны ресурсы Azure, Microsoft 365, Microsoft Teams, Exchange Online, Outlook, SharePoint Online, OneDrive for Business и Microsoft Graph. Также был ограничен или полностью отсутствовал доступ к Microsoft Store, не работали игровые сервисы Xbox, серверы Minecraft и ресурсы VS Code.
Microsoft после сбоя сообщила, что устраняет неполадки в сетевых системах, которые вызвали нарушения в работе её облачных сервисов. Инженеры компании изолировали проблему с конфигурацией сети и откатили ранее внесённые изменения в сетевую IT-инфраструктуру, из-за которых началась проблема с доступом у пользователей по всему миру.
В рамках проведения оперативных сетевых ремонтных работ Microsoft подключила дополнительные мощности своей сетевой инфраструктуры, чтобы ускорить процесс восстановления доступа.
Спустя четыре часа после сбоя основные сетевые облачные сервисы компании вернулись в штатный режим работы. В компании не пояснили, почему допустили возникновение этой глобальной сетевой проблемы в процессе запланированного изменения сетевых настроек своих пограничных маршрутизаторов.
Сетевые эксперты из Qrator сообщили, что из-за некорректных изменений в настройках сетевого оборудования Microsoft автономная система компании AS8075 потеряла связь с 47 другими ASN, включая AS701 UUNET (Verizon). Все случилось не сразу, а в несколько волн, что подтверждают инженеры Microsoft.
Источник новости: www.playground.ru