Industry & Business Community 2026-04-05 Source →

GPT-5.xが「最も検閲が強いAI」と評価、開発者の43%がClaudeに乗り換えか

AIモデルの応答の自由度を測る「Sansaベンチマーク」において、OpenAIのGPT-5.2 Thinkingがテストされた全モデルの中で最も検閲が強いモデルと評価されたことが明らかになり、開発者コミュニティで大きな反響を呼んでいます。同時に、開発者の43%がすでにClaudeを日常的に使用するようになったという調査結果も報告されており、ChatGPTからの移行が加速しているとみられます。

Sansaベンチマークは、AIモデルがどの程度の幅の質問やトピックに対して有用な回答を返せるかを評価する指標です。GPT-5.2 Thinkingのスコアが最低水準だったとする評価は、同モデルのリリース以降に多くのユーザーが感じていた「回答の短さ」「コーディング補助の質低下」という体感と一致する結果として受け止められています。OpenAIが安全性フィルタリングを強化した結果、ベンチマーク性能は向上する一方で実用性が損なわれたという批判が噴出している状況です。

Redditのr/ChatGPTでは「回答が短くなり、コーディング補助の質が低下した」という不満が相次いでおり、実際にClaude・GeminiへのAPI切り替えを報告するユーザーが多数見られます。Hacker Newsでは「安全性とユーザビリティのバランス」をめぐる議論が活発に展開されており、OpenAIの過剰な安全フィルタリングを批判する声が上位コメントに集中しています。

一方でOpenAI側は、安全性の強化は意図的な判断であると主張しています。GPT-5.4 ThinkingがOSWorldベンチマークで人間水準の75%を達成するなど、高度な推論タスクでの性能は向上しており、「用途によって使い分ける時代」という見方も出ています。競合他社との差別化が難しくなる中で、OpenAIがユーザー体験と安全性のバランスをどう再設定するかが問われています。

GPT-5.xが「最も検閲が強いAI」と評価、開発者の43%がClaudeに乗り換えか

関連リンク