GPT-4.5チャットは、すべてのOpenai Plusおよびチームユーザーが利用できますが、テスト結果は「奇妙」です

プレゼンテーションの数日後、Openiiは、より多くの視聴者がGPT-4.5を利用できるようにしました、GPU欠乏による最初の制限を克服します。当初はProユーザー向けに予約されていますプラスおよびチームプランの購読者彼らは、この「汎用」モデルの可能性を実験することができます。これは、応答の高精度、「幻覚」の減少、より​​自然で共感的な相互作用を約束します。

GPT-4.5へのアクセスを拡張する決定は、彼のモデルのスキルと、より多くのリクエストを管理する能力に対するOpenaiの信頼の高まりを反映しています。ただし、アクセスの拡大は、実際のコンテキストでのモデルのパフォーマンスに関する疑問を提起し、高度な基準と信頼性を維持する能力についても提起します。

ベンチマークの結果

LLMの評価に特化した独立した研究室であるEpoch AIは、GPT-4.5をテストにし、他のフラッグシップモデルと比較しています。ベンチマークGPQAダイヤモンド、数学レベル5、モックエイム2024-2025の結果彼らは、GPT-4.5が「非合理的な」モデルと比較して改善し続け、GPT-4Oの精度を克服し、Claude 3.7ソネットと同様のスコアを拡張することなく得ることを示しています。

現時点では、X/Twitterには問題があります

また、投稿をロードすることはできません

ただし、いくつかの制限も現れます。複雑な推論容量を必要とするベンチマークでは、GPT-4.5は、O3-Mini、Deepseek-R1、Claude 3.7などのモデルと比較して、拡張された思考を伴うパフォーマンスが低いことを示しています。特に、ベンチマークOtis Mock Aimeでは、O3-MINIの精度はGPT-4.5の精度を超えており、高度な数学的問題に直面したGPT-4.5の難しさを強調しています。

別の重要な質問は、ベンチマークの「汚染」に関するものです。大西洋の分析によって指摘されているように、IAモデルは、評価テストで使用されているのと同じ質問を含むデータでトレーニングすることができ、結果の信頼性を損ないます。これは、モデルが知識を一般化し、新しい予期せぬ問題に直面する能力について疑問を投げかけます。

その間。

Leave a Reply

Your email address will not be published. Required fields are marked *

Subscribe Now & Never Miss The Latest Tech Updates!

Enter your e-mail address and click the Subscribe button to receive great content and coupon codes for amazing discounts.

Don't Miss Out. Complete the subscription Now.