【宕機根本原因的線索】:這個問題與一個叫做BGP路由的東西有關,且極有可能與配置失誤有關。
【影響時間長的線索】:當時facebook的辦公網無法連接外網, 極有可能是影響時長達6小時的原因,因為無法登錄服務器修復線上問題。
【宕機時間段】:2021-10-04 23:39〜2021-10-05 06:45
週一,Facebook、INSTAGRAM、WhatsApp 和 Oculus 的宕機使馬克·扎克伯格帝國的每個角落都下線。這是一種社交媒體停電,最貼切的説法是“徹底”停電,而且似乎難以被解決。
Facebook本身尚未確認其宕機的根本原因,但互聯網上流傳很廣。與DNS記錄無法訪問的時間相吻合,該公司的所有應用程序在美國東部時間上午11點40分開始從互聯網上消失了。 DNS通常被稱為互聯網的電話簿;它將您輸入到URL的主機名(如 facebook.com)轉換為IP地址,即這些站點所在的IP地址。
DNS事故很常見,如果有疑問,它們就是特定站點宕機的原因。它們可能由於各種不穩定的技術原因而發生,通常與配置問題有關,並且可以相對簡單地解決。然而,這一次,似乎發生了更嚴重的事情。
網絡威脅情報公司Bad Packets的首席研究官Troy Mursch説,“Facebook 的宕機似乎是由DNS引起的;然而,這只是表象。” Mursch説,根本問題是(其他專家也同意) Facebook已經撤回了所謂的邊界網關協議(BGP)路由器,此路由器包含了DNS服務器的IP地址。如果DNS是互聯網的電話簿,那麼BGP就是它的導航系統;它決定數據在信息高速公路上行駛時採用的路線。
“你可以把它想象成電話遊戲,但不是人們在玩,而是較小的網絡,讓彼此知道如何聯繫對方。他們向鄰居宣佈這條路線,他們的鄰居會將其傳播給他們的鄰居。” 網絡監控公司Cisco ThousandEyes的產品營銷總監 Angelique Medina 説。
這裏很多術語,但很容易説清楚,Facebook已經從互聯網地圖上消失了。如果您現在嘗試 ping這些,正如Mursch所説,“這些數據包最終進入了一個黑洞,” 。
地圖顯示了由於DNS解析失敗而無法訪問Facebook。由CISCO THOUSAND EYES提供
https://www.thousandeyes.com/...
顯而易見但仍未解決的問題是為什麼這些BGP路由器首先消失了。這不是一種常見的問題,尤其是在這種規模或持續時間。在宕機期間,Facebook除了一條推文外沒有説別的,“正在努力盡快讓事情恢復正常”。在週一下午晚些時候服務逐漸恢復後,Facebook發了一份仍然缺乏任何技術細節的聲明。 該公司表示, “對於今天受到我們平台中斷影響的每個人:我們很抱歉!我們知道全世界有數十億人和企業依賴我們的產品和服務來保持聯繫。我們感謝您的耐心等待。”
與 WIRED 交談的互聯網基礎設施專家都表示,最可能的答案是Facebook的配置錯誤。互聯網基礎設施公司Cloudflare的首席技術官John Graham-Cumming表示:“看起來Facebook對他們的路由器做了一些事情,這些路由器將Facebook網絡連接到互聯網。”他強調説他不知道細節發生了什麼。畢竟,他説,互聯網本質上是網絡的網絡,每個網絡都向另一個網絡宣傳它的存在。這一次,Facebook停止了廣告。
這也意味着不僅僅是Facebook的外部服務受到影響。例如,您不能在第三方網站上使用Facebook登錄。而且由於公司自己的內部網絡無法訪問外部互聯網,據報道,其員工今天也無法工作。 (Instagram 首席執行官亞當·莫塞裏(Adam Mosseri)甚至在推特上説“感覺就像下雪天。”)
這也解釋了為什麼需要這麼長時間才能恢復運行。 2019年,谷歌雲宕機導致谷歌工程師無法登錄谷歌雲來修復谷歌雲宕機。 Facebook 似乎至少有可能陷入類似的 catch-22,無法訪問互聯網來修復BGP路由問題。
梅迪納説,“好消息是,一旦 Facebook能夠恢復任何配置,它應該很快就會恢復業務。 “當它得到糾正後,交通將真正開始流動,”
與此同時,互聯網的其它應用也感受到了Facebook的宕機。或者,更具體地説,像 Cloudflare這樣的DNS解析器(將域名轉換為IP地址的服務)監控到了平常流量的兩倍之多,因為人們一直試圖加載 Facebook、Instagram 和 WhatsApp。這些請求不足以壓倒整個系統,但激增的流量提醒人們互聯網確實是相互依賴的,有時甚至是脆弱的。
引用來自《Why Facebook, Instagram, and WhatsApp All Went Down Today》