OpenAI が ChatGPT ブラックアウトを説明: 新しいテレメトリ サービスの障害

水曜日、OpenAI は史上最大規模の停電に直面し、ChatGPT、Sora ビデオ ジェネレーター、開発者 API に影響を及ぼしました。この問題は午後 3 時頃 (太平洋時間) に始まり、解決までに約 3 時間かかりました。 OpenAIは木曜日に発表したレポートで、アプリケーションコンテナの管理に使用されるオープンソースシステムであるKubernetesからメトリクスを収集するために導入された新しいテレメトリサービスが原因であるとしている。

OpenAI によると、このサービス構成により、非常に集中的な API 操作がトリガーされ、Kubernetes サーバーに負荷がかかり、コントロール プレーンが侵害されたとのことです。これは波及効果をもたらし、IP アドレスをドメイン名に変換するための重要なコンポーネントである DNS 解決などの重要なサービスが中断されました。

視認性の問題と解決の遅さ

問題はDNS キャッシュによってさらに悪化、IP アドレスとドメイン名の対応関係に関する情報を保存するシステム。このため、問題の可視化が遅れ、影響の全範囲が理解される前にテレメトリーのロールアウトが続行される可能性がありました。 OpenAIですが数分前に問題を検出した顧客は影響を受けましたが、構成ミスによりブロックされた Kubernetes サーバーにアクセスできないため、解決が遅れました。

ChatGPTのメモリー機能。

同社はこのインシデントを「システムとプロセスが合流して同時に障害が発生し、彼らは予期せぬ形で交流した」 リリース前のテストでは、この変更が Kubernetes の制御に与える影響は予測されていなかったため、状況の管理はさらに複雑になりました。

同様の事件の再発を防ぐため、OpenAIは新たな対策の導入を発表した。これらには以下が含まれますプログレッシブロールアウトの改善、インフラストラクチャ変更の高度な監視、およびあらゆる状況下で Kubernetes サーバーへのアクセスを保証する新しいツール。会社は自分たちの間違いを認めたと顧客に謝罪し、自ら設定した基準を満たしていないと強調した。

ChatGPT の i プロンプトごとのチャット。

この機能停止は、個人から開発者、企業に至るまで、幅広いユーザーに重大な影響を与えました。。この事件は疑問を投げかけるChatGPT のような重要なプラットフォームの信頼性について特に、ビジネスおよび個人のアプリケーションにおける中心的な役割を考慮すると、ただし、OpenAI が発表した措置は、インフラストラクチャの強化と重要な変更管理の改善への取り組みを示しています。

Leave a Reply

Your email address will not be published. Required fields are marked *

Subscribe Now & Never Miss The Latest Tech Updates!

Enter your e-mail address and click the Subscribe button to receive great content and coupon codes for amazing discounts.

Don't Miss Out. Complete the subscription Now.