in ,

Cloudflare日前全球大死機  官方強調唔係黑客攻擊

Cloudflare於日前早上出現全球性服務中斷,官方公佈原因,強調並非外部攻擊,而是一項資料庫權限改動觸發系統狂寫入檔案,令Bot Management所用的檔案突然變大並超出系統可處理範圍,核心代理無法載入相關內容,最終引發大量5xx錯誤。全球大量網站都有使用Cloudflare不同的服務,故此今次出事比起Amazon的AWS死機情況更嚴重。

事件由一個定時查詢開始,因資料庫權限調整後讀取到額外欄位,令檔案出現重複內容,體積爆增。由於該檔案每五分鐘更新一次,所以網路情況呈現反覆情況,一時無事、一時又再出事,令Cloudflare程式設計員初時誤以為遇上新一輪大規模DDoS行動。

此次事故亦影響多項平台服務,包括Turnstile無法載入、Workers KV錯誤顯著增加、Access大範圍登入失敗,控制台亦因登入流程受阻而在兩段時間內可用性下降。團隊在13:05開始採用繞過核心代理的方式,臨時減輕部分影響。於當地時間14:30修復核心檔案問題後,大部分服務陸續恢復,而所有服務於17:06前完全回復。

Cloudflare表示將改善內部檔案的驗證流程,增設更多控制,避免偵錯系統額外體積,影響整體回應,並全面檢視核心模組的錯誤處理方式,減低日後再因單一設定更改,導致大規模故障的風險。

記者:機械人