GPT-4.5チャットは、すべてのOpenai Plusおよびチームユーザーが利用できますが、テスト結果は「奇妙」です

プレゼンテーションの数日後、Openiiは、より多くの視聴者がGPT-4.5を利用できるようにしました、GPU欠乏による最初の制限を克服します。当初はProユーザー向けに予約されていますプラスおよびチームプランの購読者彼らは、この「汎用」モデルの可能性を実験することができます。これは、応答の高精度、「幻覚」の減少、より自然で共感的な相互作用を約束します。

GPT-4.5へのアクセスを拡張する決定は、彼のモデルのスキルと、より多くのリクエストを管理する能力に対するOpenaiの信頼の高まりを反映しています。ただし、アクセスの拡大は、実際のコンテキストでのモデルのパフォーマンスに関する疑問を提起し、高度な基準と信頼性を維持する能力についても提起します。

ベンチマークの結果

LLMの評価に特化した独立した研究室であるEpoch AIは、GPT-4.5をテストにし、他のフラッグシップモデルと比較しています。ベンチマークGPQAダイヤモンド、数学レベル5、モックエイム2024-2025の結果彼らは、GPT-4.5が「非合理的な」モデルと比較して改善し続け、GPT-4Oの精度を克服し、Claude 3.7ソネットと同様のスコアを拡張することなく得ることを示しています。

現時点では、X/Twitterには問題があります

また、投稿をロードすることはできません

ただし、いくつかの制限も現れます。複雑な推論容量を必要とするベンチマークでは、GPT-4.5は、O3-Mini、Deepseek-R1、Claude 3.7などのモデルと比較して、拡張された思考を伴うパフォーマンスが低いことを示しています。特に、ベンチマークOtis Mock Aimeでは、O3-MINIの精度はGPT-4.5の精度を超えており、高度な数学的問題に直面したGPT-4.5の難しさを強調しています。

別の重要な質問は、ベンチマークの「汚染」に関するものです。大西洋の分析によって指摘されているように、IAモデルは、評価テストで使用されているのと同じ質問を含むデータでトレーニングすることができ、結果の信頼性を損ないます。これは、モデルが知識を一般化し、新しい予期せぬ問題に直面する能力について疑問を投げかけます。

その間。

People Who Read This Post Also Like

2025-01-30

Powered By WordPress

GPT-4.5チャットは、すべてのOpenai Plusおよびチームユーザーが利用できますが、テスト結果は「奇妙」です

ベンチマークの結果

People Who Read This Post Also Like

都市神話解散センター、日本の大都市の伝説を「破裂」する冒険のレビュー

Microsoftは、Intelプロセッサを備えた新しいSurfacePro 11とSurface Laptop 7を明らかにしています

PC ゲーマー向けの 10 のギフトアイデア

Nubia Z70 Ultra、魅力的な価格で（ほぼ）最高級の Android スマートフォンのレビュー

Apple iPhone15の128 GBは、Amazonで複数の色で強力な割引を受けています

テイルズオブグレイセス f リマスターのローンチトレーラーが公開されました

Leave a Reply Cancel reply

List of Popular

Recent Posts

Subscribe Now & Never Miss The Latest Tech Updates!

Powered By WordPress

Browse posts by popular tags

GPT-4.5チャットは、すべてのOpenai Plusおよびチームユーザーが利用できますが、テスト結果は「奇妙」です

ベンチマークの結果

People Who Read This Post Also Like

Leave a Reply Cancel reply

List of Popular

Recent Posts

Subscribe & be the first to know!

Subscribe Now & Never Miss The Latest Tech Updates!