2025 Jun 16 12:31
新野淳一
Google Cloudは日本時間で6月13日金曜日の午前2時49分から約3時間のあいだ、Google Cloudの世界中のリージョンにおいてAPIへのアクセスに対して503エラーの発生が増加するなどの障害を起こしていました。
この影響でSpotifyやTwitch、NPM、Firebaseなど、Google Cloudを利用していた多くのサービスにも障害が発生することとなりました。
この障害の原因についてGoogle Cloudは6月15日に詳しい報告を公開しています。
報告によると、Google Cloud APIを外部に提供するために世界中の各リージョンに配置されているGoogle API管理ツールに追加した新機能に潜在的なバグがあり、適切なエラーハンドリングやフィーチャーフラグが働かない状態でヌルポインタを参照しクラッシュ。
世界中の各リージョンでほぼ同時にこのクラッシュが発生したことが障害の原因だとしています。
時系列で何が起きたかをまとめました。
API管理ツールの機能追加にバグ
2025年5月29日(現地時間)、つまり今回の障害が発生する約2週間ほど前に、Google APIの管理ツールにおいて、APIの利用制限などのポリシーをチェックする「サービスコントロール」と呼ばれる機能に新たな機能追加が行われました。
この機能追加は世界中の各リージョンのサービスコントロールに対して行われました。この追加機能の中に今回の障害につながるバグが含まれていましたが、この追加機能はAPIの利用ポリシーが変更されない限り実行されなかったため、見過ごされてしまいました。
バグは、ヌルポインタを参照するとクラッシュするというものでした。適切なエラーハンドリングもなく、フィーチャーフラグによる無効化の初期設定も行われていませんでした。
もしフィーチャーフラグが適切に設定されていれば、このバグを含む機能はまずステージング環境において有効にされ、そこでクラッシュが発覚し、各リージョンで障害を起こす前に対処されていただろうと報告されています。
https://www.techno-edge.net/article/2025/06/16/4423.html
障害を引き起こすクラッシュが発生
引用元: ・原因はヌルポ。Google Cloudの大規模障害、原因は管理システムのヌルポインタ参照
お前らアヒルか
鴨か鵞鳥かよ
コメント