互聯網根服務器故障和滯后路由控制致“.net”頂級域名斷網
- 作者:木辰科技
- 發表時間:2020-03-16 14:44:08
- 來源:shmuchen.com
- 瀏覽量:1325
近日,互聯網頂級域名“.net”在F根服務器(由互聯網基礎軟件研發機構ISC運行)以及E根(由美國國家航空航天局運行)的解析出現了故障。
由于“.net”和“.com”(通用頂級域名)以及“.cn”(中國的國家代碼頂級域名)一樣,是互聯網使用范圍最廣的頂級域名之一,有一千三百四十多萬注冊量,其解析故障導致了大量使用“.net”域名的網站和服務器從互聯網“斷開網絡連接”,持續3小時18分鐘。
這次事件在國際互聯網社群造成很大的影響,互聯網域名系統國家工程研究中心主任毛偉研究員,針對此次斷網事件進行了解讀和分析。
一、復盤:域名解析故障疊加路由控制失效導致的斷網事件
2月22日,F根的運行機構--互聯網基礎軟件研發機構ISC(Internet System Consortium,DNS開源項目BIND的維護單位) 發布了一份報告,對此次事件的原因進行了說明。
根據該報告披露,此次斷網的原因是:F根部分服務節點部署在美國CDN廠商Cloudflare的網絡中。由于Cloudflare在其網絡基礎軟件進行升級時,出現了故障,不能正常對互聯網返回F根服務器的尋址信息。
在故障修復之前,由于Cloudflare沒有及時停止對互聯網廣播F根的服務地址(F根的IP地址),大量用戶流量仍然被路由到Cloudflare運行的故障F根節點訪問,導致無法訪問所有“.net”域名的互聯網服務。
1月23日,在收到用戶反饋“斷網”后,Cloudflare停止了對外廣播(BGP)F根的服務地址,互聯網用戶對F根的訪問流量被定位到其他機構運行的F根服務節點上。
完成故障修復后,Cloudflare重新對外廣播F根的服務地址,向互聯網用戶提供正常的根區解析服務。(報告原文地址:https://www.isc.org/docs/f-root/incident-2020-01.pdf)
由美國國家航空航天局(NASA)運行的E根的部分服務節點也部署在美國CDN廠商Cloudflare的網絡中,并受此次故障影響,其原因應該是一樣的。
二、啟示:“路由斷網”和“域名斷網”既相互區別,又有所聯系
此次斷網事件讓“域名系統”和“路由系統”再次成為高亮詞。
回顧互聯網的安全史,大概沒有哪個單一系統故障能像域名系統和路由系統,一旦出現故障就可以造成大面積的網絡癱瘓或服務中斷。
但這次事件的原因交織了兩個“斷網”要素:突然出現的“域名斷網”,需要通過“路由斷網”來終止不利影響。
在此次斷網事件中,首先是因為域名系統的解析故障,導致了根服務器(F根)反饋了錯誤的“.net”域名解析結果。
ISC官方說此次故障是由于F根節點(Cloudflare公司)的基礎軟件(underlying software)升級導致的:運行在cloudflare的F根節點軟件升級后出了bug,導致返回“.net” 頂級域名的NS 記錄時沒有反饋glue記錄(“.net”權威服務器的IP地址)從而導致用戶無法進行下一步DNS解析。
但這一配置故障并不是決定性的。全球的根服務器系統,早就通過部署“鏡像節點“并以BGP+Anycast的機制保證根服務器的解析,不會因為部分節點失效而出現故障。
但是,這一機制的前提是要駕馭好基于BGP的全球互聯網路由控制系統。在發現了Cloudflare運行的F根節點出現問題后,如果第一時間通過路由控制(BGP)停止對全球互聯網廣播服務地址(讓錯誤的F根節點“斷網”),那么該節點提供的錯誤域名解析就不會影響到用戶。
用戶會通過BGP+Anycast機制找到提供正確域名解析的其他F根節點。
三、延伸:“斷網”是多種因素共同作用的復雜現象,要區別斷網的層次
“互聯網域名系統”(簡稱“域名系統”)和“互聯網路由控制系統”(簡稱“路由控制系統”)在全球網絡的互聯互通中扮演了什么角色?
一般來說,互聯網的用戶終端(電腦、手機等)要想訪問一個網頁(網站服務器),
首先需要通過域名系統的“查詢功能”獲取網站的IP地址;
然后再在根據路由控制系統提供的“尋址功能”將消息(訪問請求)發送給網站。
類比郵政系統,域名系統類似收件人的地址查詢系統,根據收件人的名字反饋收件地址;路由控制系統類似于導航系統,根據收件地址,在實際的道路網中規劃處一條最合理的寄送道路。
域名系統故障,稱為“域名斷網”,也即,用戶無法查詢到通信對象的IP地址;路由控制系統故障,稱為“路由斷網”,也即用戶無法根據通信對象的IP地址發起訪問請求。
域名故障容易導致大面積斷網的本質,是因為域名系統是集中層次化管理,單點失效會傳導給所有依賴此服務的網絡。
路由故障容易導致大面積斷網,是因為互聯網是以“自治域”為單位互聯互通,路由控制一旦失效,就是一個自治域網絡級別的斷網。
同時,路由安全的保護機制RPKI(互聯網碼號資源公鑰基礎設施)使得路由控制系統也同域名一樣,依賴層次化的IP地址認證體系,這是全球互聯網的根本運行機制和資源分配體系決定的。
四、結束語:
由大量異構網絡互聯互通而成的“全球互聯網”,依舊會依賴互聯網域名系統提供的“統一命名空間”和互聯網路由系統提供的“統一尋址空間”。
此次根服務器故障和滯后的路由控制,導致的是一個“通用頂級域名”無法解析,如果影響的是一個國家代碼頂級域名,將會在國際上引來巨大的爭議。
盡管學術界和工業界已經不斷地提出安全解決方案,但在可預見的未來,伴隨著他們運行風險不會消失。域名系統和路由系統的安全保障工作,沒有終點,只有不斷出現的新的更高水平的起點。
聲明:本文由 木辰科技 收集整理的《互聯網根服務器故障和滯后路由控制致“.net”頂級域名斷網》,如轉載請保留鏈接:http://www.llqzw.com.cn/news_in/171
上一篇新聞:在云服務器上放什么內容違法?
下一篇新聞:什么是偽靜態?偽靜態有何作用?哪種好?