"Висмикнули кабелі": експерти пояснили причини падіння Facebook, Instagram і WhatsApp

Facebook, фейсбук
Фото: pexels.com

Автономна мережа Facebook відключилася від інтернету, що призвело до падіння платформ, які належать компанії. Користувачі лише погіршили ситуацію постійними оновленнями сторінок.

У понеділок, 4 жовтня, стався наймасштабніший збій Facebook і приналежних їй соціальних мереж та месенджерів.

Фахівці компанії з кіберзахисту Cloudfare на своєму сайті розкрили причини, чому не працював Instagram, WhatsApp та інші сервіси компанії.

Офіційна версія падіння Facebook

Через падіння сайтів користувачі близько шести годин не могли отримати доступ до популярних сервісів. Віцепрезидент Facebook Сантош Джанардхан в офіційному блозі компанії пояснив збій зміною конфігурації маршрутизаторів. Компанія дала зрозуміти, що падіння сталося саме з цієї причини, а не в результаті аварії чи хакерської атаки. За словами Джанардхана, через технічні неполадки центри обробки даних втратили зв'язок одне з одним, ось чому не працював Фейсбук.

Співробітники Facebook розповіли The Verge, що втратили можливість спілкуватися за допомогою корпоративної мережі і були змушені листуватися за допомогою електронної пошти Outlook, FaceTime і Discord. Передбачається, що проблеми почалися після звичайного поновлення протоколу динамічної маршрутизації зовнішнього шлюзу (Border Gateway Protocol, або BGP), яке призвело до видалення інформації про маршрутизацію DNS, необхідну для роботи соціальних мереж. (Зазначимо, що BGP використовується для обміну інформацією про досяжність підмереж між автономними системами, що складаються з централізовано керованих груп маршрутизаторів, які використовують протокол внутрішньодоменної маршрутизації для визначення маршрутів всередині себе і протокол міждоменної маршрутизації для визначення маршрутів доставки пакетів в інші автономні системи, — ред.).

Падіння Instagram і Facebook: чому соцмережі відключилися від інтернету

Фахівці Cloudflare помітили неполадки в системі і припустили, що причина полягає в їхньому перетворювачі DNS (DNS — система для отримання інформації про домени, — ред.). Проблема виявилася набагато серйознішою: DNS-імена "Facebook", "WhatsApp" та "Instagram" перестали відображатися, а IP-адреси виявилися недоступними.

"Наче хтось відразу "висмикнув кабелі" зі своїх центрів обробки даних і відключив їх від інтернету", — прокоментували інженери.

BGP відповідає за обмін маршрутною інформацією між автономними системами, такими як корпоративні мережі. Маршрутизатори забезпечують роботу інтернету і пов'язують різні мережі за допомогою постійно оновлюваних списків можливих маршрутів доставки мережевих пакетів. При цьому кожна мережі з внутрішньою політикою маршрутизації має індивідуальний номер автономної системи (ASN). Ці номери зобов'язані пред'являти свої транзитні префікси за допомогою BGP, щоб інші мережі, пристрої знали, як до них підключитися.

Як з'ясували в Cloudflare, Facebook перестав оголошувати маршрути для своїх префіксів DNS. Це означало, що як мінімум DNS-сервери Facebook виявилися недоступними, тому DNS-перетворювач Cloudflare 1.1.1.1 більше не спромігся відповісти на запити, які вимагають IP-адреси сайтів facebook.com та instagram.com. Інші адреси, пов'язані з Facebook, продовжували працювати, проте були марними.

Приблизно о 18:40 за київським часом інженери Cloudflare помітили різкі зміни маршрутизації, на фоні яких і відбулося падіння Facebook. Зазвичай розробники соціальної мережі нечасто змінюють конфігурацію, однак, цього разу на графіку відбулися два великих стрибки, що означають поновлення. У результаті маршрути були відкликані, DNS-сервери Facebook відключилися, а сайти соцмереж і месенджер відключилися від Всесвітньої павутини.

Facebook
Графік поновлення BGP Facebook

До того ж, DNS-перетворювачі компанії в усьому світі перестали вирішувати свої доменні імена. DNS, як і багато інших систем в інтернеті, також має свій механізм маршрутизації. Якщо користувач вводить URL-адресу https://facebook.com у браузері, перетворювач DNS насамперед використовує дані зі свого кешу, якщо ж він порожній — намагається отримати відповідь від серверів доменних імен, зазвичай розміщених на сервері, якому він належить. У разі, коли сервери недоступні, браузер повідомляє про помилку.

Саме це і сталося після збою у Facebook і падіння сайтів. Ситуацію посилив людський фактор, що викликав потік додаткового трафіку. Справа в тому, що користувачі часто не бажають миритися з помилкою, починають агресивно перезавантажувати сторінки або встановлювати заново додатки, замість того, щоб розібратися, чому не працює Фейсбук або WhatsApp. Вони також почали частіше заходити на Twitter, Signal та інші платформи, у результаті трафік став перевантажуватися і ці сервіси стали працювати повільніше.

Facebook
Графік доступності Facebook 4 жовтня

"Оскільки Facebook та її сайти досить великі, у нас є DNS-перетворювачі по всьому світу, що обробляють у 30 разів більше запитів, ніж зазвичай, і це викликало проблеми із затримкою і тайм-аутом для інших платформ", — зазначили в Cloudflare.

Приблизно опівночі компанія помітила відновлення активності BGP в мережі Facebook. WhatsApp та Instagram було потрібно більше часу, щоб підключитися до мережі.

Експерт з кібербезпеки Андрій Баранович прокоментував Фокусу падіння Facebook і пов'язаних з ним сайтів:

"У компанії просто помилилися в настройках BGP (протокол маршрутизації між провайдерами) і все лягло. І так довго, тому що разом з мережею лягла і система безпеки, і вони довго не могли отримати доступ до обладнання. Таке періодично трапляється навіть з дуже великими мережами".

Як Facebook усувала джерело збою в Каліфорнії

Видання The Verge наводить слова співробітників Facebook, згідно з якими інженерів компанії відправили для ремонту в один з найбільших центрів обробки даних у США в Каліфорнії — це означає, що проблему було неможливо усунути віддалено. При цьому деякі працівники не могли увійти в будівлі і конференцзали за електронними перепустками через тимчасове відключення електроживлення. В електронному листі співробітникам технічний директор Майк Шрепфер заявив, що неполадки торкнулися мережеву магістраль, яка з'єднує всі центри обробки даних Facebook.

"Якщо ви активно не працюєте над відновленням, наберіться терпіння і не поспішайте перезавантажувати все, щоб не уповільнити роботу мережі", — попередив він.

Раніше писали, що глава Facebook Марк Цукерберг попросив вибачення за збій у роботі соцмереж. Він заявив, що Instagram, WhatsApp і Messenger відновлюють свою роботу.

Писали також, що в результаті збою почалося падіння акцій Facebook та інших IT-гігантів, таких як Apple, Amazon і Google. Котирування власниці соцмереж впали на 5,01%.