"Выдернули кабели": эксперты объяснили причины падения Facebook, Instagram и WhatsApp

Facebook, фейсбук
Фото: pexels.com

Автономная сеть Facebook отключилась от Интернета, что привело к падению платформ, принадлежащих компании. Пользователи лишь усугубили ситуацию постоянными обновлениями страниц.

В понедельник, 4 октября, произошел самый масштабный сбой Facebook и принадлежащих ей социальных сетей и мессенджеров.

Специалисты компании по киберзащите Cloudfare на своем сайте раскрыли причины, почему не работал Instagram, WhatsApp и другие сервисы компании.

Официальная версия падения Facebook

Из-за падения сайтов пользователи около шести часов не могли получить доступ к популярным сервисам. Вице-президент Facebook Сантош Джанардхан в официальном блоге компании объяснил сбой изменением конфигурации маршрутизаторов. Компания дала понять, что падение произошло именно по этой причине, а не в результате аварии или хакерской атаки. По словам Джанардхана, из-за технических неполадок центры обработки данных потеряли связь друг с другом, вот почему не работал Фейсбук.

Сотрудники Facebook рассказали The Verge, что потеряли возможность общаться при помощи корпоративной сети и были вынуждены переписываться при помощи электронной почты Outlook, FaceTime и Discord. Предполагается, что проблемы начались после обычного обновления протокола динамической маршрутизации внешнего шлюза (Border Gateway Protocol, или BGP), которое привело к удалению информации о маршрутизации DNS, необходимой для работы социальных сетей. (Отметим, что BGP используется для обмена информацией о достижимости подсетей между автономными системами, состоящими из централизованно управляемых групп маршрутизаторов, использующими протокол внутридоменной маршрутизации для определения маршрутов внутри себя и протокол междоменной маршрутизации для определения маршрутов доставки пакетов в другие автономные системы, — ред.).

Падение Instagram и Facebook: почему соцсети отключились от Интернета

Cпециалисты Cloudflare заметили неполадки в системе и предположили, что причина заключается в их преобразователе DNS (DNS — система для получения информации о доменах, — ред.). Проблема оказалась куда более серьезной: DNS-имена "Facebook", "WhatsApp" и "Instagram" перестали отображаться, а IP-адреса оказались недоступны.

"Как будто кто-то сразу "выдернул кабели" из своих центров обработки данных и отключил их от Интернета", — прокомментировали инженеры.

BGP отвечает за обмен маршрутной информацией между автономными системами, такими как корпоративные сети. Маршрутизаторы обеспечивают работу Интернета и связывают различные сети при помощи постоянно обновляемых списков возможных маршрутов доставки сетевых пакетов. При этом каждая сеть с внутренней политикой маршрутизации имеет индивидуальный номер автономной системы (ASN). Эти номера обязаны предъявлять свои транзитные префиксы при помощи BGP, чтобы другие сети, устройства знали, как к ним подключиться.

Как выяснили в Cloudflare, Facebook перестал объявлять маршруты для своих префиксов DNS. Это означало, что как минимум DNS-серверы Facebook оказались недоступны, поэтому DNS-преобразователь Cloudflare 1.1.1.1 больше не мог отвечать на запросы, запрашивающие IP-адреса сайтов facebook.com и instagram.com. Другие адреса, связанные с Facebook, продолжали работать, однако были бесполезными.

Примерно в 18:40 по киевскому времени инженеры Cloudflare заметили резкие изменения маршрутизации, на фоне которых и произошло падение Facebook. Обычно разработчики социальной сети нечасто меняют конфигурацию, однако в этот раз на графике произошли два больших скачка, означающих обновления. В результате маршруты были отозваны, DNS-серверы Facebook отключились, а сайты соцсетей и мессенджер отключились от Всемирной паутины.

падение Facebook Fullscreen
График обновления BGP Facebook

Вдобавок, DNS-преобразователи компании во всем мире перестали разрешать свои доменные имена. DNS, как и многие другие системы в Интернете, также имеет свой механизм маршрутизации. Если пользователь вводит URL-адрес https://facebook.com в браузере, преобразователь DNS первым делом использует данные из своего кэша, если же он пуст — пытается получить ответ от серверов доменных имен, обычно размещенных на сервере, которому он принадлежит. В случае, когда серверы недоступны, браузер сообщает об ошибке.

Именно это и произошло после сбоя в Facebook и падения сайтов. Ситуацию усугубил человеческий фактор, вызвавший поток дополнительного трафика. Дело в том, что пользователи часто не желают мириться с ошибкой, начинают агрессивно перезагружать страницы или переустанавливать приложения, вместо того, чтобы разобраться, почему не работает Фейсбук или WhatsApp. Они также начали чаще заходить на Twitter, Signal и другие платформы, в итоге трафик стал перегружаться и эти сервисы стали работать медленнее.

график падения Фейсбук Fullscreen
График доступности Facebook 4 октября

"Поскольку Facebook и ее сайты довольно велики, у нас есть DNS-преобразователи по всему миру, обрабатывающие в 30 раз больше запросов, чем обычно, и это вызвало проблемы с задержкой и тайм-аутом для других платформ", — отметили в Cloudflare.

Примерно в полночь компания заметила возобновление активности BGP в сети Facebook. WhatsApp и Instagram потребовалось больше времени, чтобы подключиться к сети.

Эксперт по кибербезопасности Андрей Баранович прокомментировал Фокусу падение Facebook и связанных с ним сайтов:

"В компании просто ошиблись в настройках BGP (протокол маршрутизации между провайдерами) и все легло. И так долго, потому что вместе с сетью легла и система безопасности, и они долго не могли получить доступ к оборудованию. Такое периодически случается даже с очень крупными сетями".

Как Facebook устранял источник сбоя в Калифорнии

Издание The Verge приводит слова сотрудников Facebook, согласно которым инженеров компании отправили для ремонта в один из крупнейших центров обработки данных в США в Калифорнии – это означает, что проблему было невозможно устранить удаленно. При этом некоторые работники не могли войти в здания и конференц-залы по электронным пропускам из-за временного отключения электропитания. В электронном письме сотрудникам технический директор Майк Шрепфер заявил, что неполадки затронули сетевую магистраль, которая соединяет все центры обработки данных Facebook.

"Если вы активно не работаете над восстановлением, наберитесь терпения и не спешите перезагружать все, чтобы не замедлить работу сети", — предупредил он.

Ранее писали, что глава Facebook Марк Цукерберг извинился за сбой в работе соцсетей. Он заявил, что Instagram, WhatsApp и Messenger восстанавливают свою работу.

Писали также, что в результате сбоя началось падение акций Facebook и других IT-гигантов, таких как Apple, Amazon и Google. Котировки обладательницы соцсетей упали на 5,01%.