- +1
云服務可靠性再敲警鐘!ChatGPT都崩了,Cloudflare披露5小時中斷事故詳情
云服務可靠性再次敲響警鐘。
當?shù)貢r間11月18日,互聯(lián)網(wǎng)基礎設施巨頭Cloudflare發(fā)生服務中斷,導致全球多家主要網(wǎng)站無法訪問。
根據(jù)網(wǎng)站故障追蹤機構(gòu)Downdetector(該網(wǎng)站自身也一度無法被部分用戶訪問),Anthropic的Claude聊天機器人、特朗普的Truth Social以及馬斯克旗下社交媒體平臺X等都受到了影響,美國新澤西公交系統(tǒng)的部分數(shù)字服務也因中斷而癱瘓。
同時,OpenAI的狀態(tài)頁面在當天晚些時間也顯示,ChatGPT及其Sora短視頻應用在因“第三方服務提供商”問題出現(xiàn)故障后已完全恢復。
Cloudflare自2009年開始組建于哈佛大學,并在2010年正式推出首批測試版,2019年在紐約證券交易所上市,目前已服務30%的財富1000強公司。其核心服務包括DDoS(防御分布式拒絕服務),這種攻擊通過海量虛假請求淹沒目標網(wǎng)站致其癱瘓。據(jù)外媒報道,該公司流量管理及安全防護服務覆蓋約20%的互聯(lián)網(wǎng)流量。
受事件影響,截至美股18日收盤,Cloudflare股價下跌2.83%。
Cloudflare聯(lián)合創(chuàng)始人、CEO馬修·普林斯(Matthew Prince)表示,此次是Cloudflare自2019年以來最嚴重的中斷,“今天這樣的中斷是不可接受的……我謹代表Cloudflare全體團隊,為給互聯(lián)網(wǎng)造成的困擾道歉?!?/p>

受影響網(wǎng)站出現(xiàn)的報錯信息
Cloudflare CTO戴恩·克內(nèi)切特(Dane Knecht)也在社交平臺發(fā)文,對故障深表歉意,表示此次事故系公司支撐發(fā)現(xiàn)僵尸程序緩解功能的某個服務中存在潛在缺陷,在進行常規(guī)配置變更后開始崩潰,進而引發(fā)網(wǎng)絡及其他服務的大范圍退化,而非遭受攻擊所致。
克內(nèi)切特表示,此次故障及其造成的影響與恢復時長都是不可接受的?!拔覀円阎珠_展工作確保此類事件不再發(fā)生,但深知確實造成了實際影響。客戶給予我們的信任是最寶貴的財富,我們將不惜一切代價重新贏回這份信任”。

Cloudflare CTO戴恩·克內(nèi)切特推文截圖
當?shù)貢r間11月19日一早,Cloudflare發(fā)布完整報告,詳細描述了持續(xù)近5個小時的事件經(jīng)過:當?shù)貢r間18日上午11:28開始出現(xiàn)影響,并在客戶HTTP流量上首次觀察到錯誤;14:30主要影響解決,下游受影響服務開始觀察到錯誤減少,大多數(shù)服務開始正確運行;17:06所有下游服務重啟,所有操作完全恢復,影響結(jié)束。
Cloudflare表示,在故障發(fā)生時,公司“最初錯誤地懷疑所見癥狀是由超大規(guī)模DDoS攻擊引起”,之后正確識別出了核心問題——底層生成此文件的ClickHouse查詢行為發(fā)生了變化,文件包含大量重復的“特征”行,致使Bot Management模塊觸發(fā)錯誤,導致核心代理系統(tǒng)對任何依賴于該模塊的流量返回了HTTP 5xx錯誤碼,同時,當包含超過特征數(shù)量限制的錯誤文件傳播到服務器時,觸發(fā)了Cloudflare的系統(tǒng)恐慌。此外,這也影響了該公司客戶依賴核心代理的Workers KV和Access兩項服務。
隨后,Cloudflare通過停止生成和傳播錯誤的特征文件,并手動將一份已知良好的文件插入特征文件分發(fā)隊列來解決了問題,然后強制重啟核心代理,5xx錯誤碼數(shù)量此后恢復正常。

Cloudflare此次中斷事故時間線
Cloudflare表示,“鑒于Cloudflare在互聯(lián)網(wǎng)生態(tài)系統(tǒng)中的重要性,我們?nèi)魏蜗到y(tǒng)的任何中斷都是不可接受的”,對給客戶和整個互聯(lián)網(wǎng)帶來的影響深表歉意。
Cloudflare稱,公司已開始著手研究如何加強系統(tǒng)以防未來發(fā)生類似故障,包括強化Cloudflare生成的配置文件的攝入處理,采用與處理用戶生成輸入相同的方式;為功能啟用更多全局緊急停止開關(guān);消除核心轉(zhuǎn)儲或其他錯誤報告耗盡系統(tǒng)資源的可能性;審查所有核心代理模塊中錯誤條件的故障模式等措施。
據(jù)外媒報道,此次事故發(fā)生前不到一個月,亞馬遜云服務也剛剛經(jīng)歷過導致多項網(wǎng)絡服務癱瘓的整日故障,隨后微軟Azure云服務及365辦公套件也曾出現(xiàn)全球性中斷。
而早在2024年7月,網(wǎng)絡安全公司CrowdStrike就曾因有缺陷的軟件更新引發(fā)大規(guī)模系統(tǒng)故障,造成航班停飛、金融服務受阻及醫(yī)院推遲手術(shù)等連鎖反應。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




