OpenAIの発表o3 と呼ばれる次の「推論」モデルのプレビューと、よりコンパクトなバージョンである o3-mini、「艦マス」ローンチイベント最終日の様子。モデルはまだ一般公開されていませんが、OpenAI は研究コミュニティ向けに、最終リリース (日付はまだ発表されていません) の前にモデルをテストするための申請を受け付けています。この新しいアプローチが表すのは、o1モデルと比較してさらに前進、9月に導入されたストロベリーとして知られています。
コーディングテストと数学テストで優れたパフォーマンスを発揮
OpenAIは次のように述べています。o3 はこれまでのパフォーマンス記録をはるかに上回ります。 SWE-Bench Verified コーディング テストでは、o3 は前世代と比較して 22.8% の向上を達成し、競争コーディング コンテストでは OpenAI の主任研究員をも上回りました。このモデルは AIME 2024 でほぼ満点を達成しました, 最も難しい数学コンテストの 1 つで、たった 1 問だけミスがありました。さらに、o3 は、専門家レベルの科学問題のベンチマークである GPQA ダイヤモンドで 87.7% という驚異的な成績を達成し、最も複雑な数学および推論の課題の 25.2% を解決しました。これは、他のモデルが達成したことのない成果です。
「推理」という言葉が指すのは、命令をより小さなタスクに分解するモデルの機能、より良い結果を生み出し、プロセスの手順を説明します。このアプローチは、最終的な結果だけではなく、答えの背後にある論理パスを理解することが重要な、高度な数学の問題を解決したり、コードを書いたりするような複雑なタスクに特に役立ちます。
セキュリティの向上
OpenAI はまた、モデルのユーザーリクエストがセキュリティガイドラインに準拠しているかどうかを段階的に評価する。このアプローチでは、単純な「はい/いいえ」ルールを超えて、モデルがその回答の意味を積極的に推論する必要があります。 o1 を使用して実施されたテストでは、この技術により、GPT-4 を含む以前のモデルと比較して、セキュリティ ポリシーへの準拠が大幅に向上することが示されました。
その間モデルがいつ一般公開されるかについては詳細を明らかにしなかったが、o3 の発表は重要な転換点を示す生成AIの進化において。高度な推論機能と熟慮上の調整を統合すると、応答の精度と信頼性が向上するだけでなく、セキュリティ上の懸念にもより適切に対処できる可能性があります。