Cloudflare日前全球大死機　　官方強調唔係黑客攻擊

Cloudflare於日前早上出現全球性服務中斷，官方公佈原因，強調並非外部攻擊，而是一項資料庫權限改動觸發系統狂寫入檔案，令Bot Management所用的檔案突然變大並超出系統可處理範圍，核心代理無法載入相關內容，最終引發大量5xx錯誤。全球大量網站都有使用Cloudflare不同的服務，故此今次出事比起Amazon的AWS死機情況更嚴重。

事件由一個定時查詢開始，因資料庫權限調整後讀取到額外欄位，令檔案出現重複內容，體積爆增。由於該檔案每五分鐘更新一次，所以網路情況呈現反覆情況，一時無事、一時又再出事，令Cloudflare程式設計員初時誤以為遇上新一輪大規模DDoS行動。

此次事故亦影響多項平台服務，包括Turnstile無法載入、Workers KV錯誤顯著增加、Access大範圍登入失敗，控制台亦因登入流程受阻而在兩段時間內可用性下降。團隊在13:05開始採用繞過核心代理的方式，臨時減輕部分影響。於當地時間14:30修復核心檔案問題後，大部分服務陸續恢復，而所有服務於17:06前完全回復。

Cloudflare表示將改善內部檔案的驗證流程，增設更多控制，避免偵錯系統額外體積，影響整體回應，並全面檢視核心模組的錯誤處理方式，減低日後再因單一設定更改，導致大規模故障的風險。