OpenAIが「GPT-5 Turbo」をリリースしました。テキスト、画像、音声の生成を一つのモデルがネイティブに処理するマルチモーダル(複数の情報形式を扱える)機能を搭載し、デスクタスクベンチマーク(オフィス業務を模した評価指標)で75.0%のスコアを達成しました。これは人間レベルのパフォーマンスと同等とされる水準です。
従来のGPT系モデルは、画像や音声の処理に別途専用モジュールを組み合わせる形を取っていました。GPT-5 Turboでは、これらが単一のモデルに統合されており、テキストで質問して音声で返答を受け取りながら、途中で画像を挿入して「この図の内容も踏まえて答えて」という使い方が自然にできるようになります。Redditでは、マルチモーダル統合の完成度に感嘆する声が多い一方、「GPT-5初期リリース時の失望」を振り返り慎重な評価を求める意見も散見されました。発表直後は熱狂しても、実際に使い込むと制限が見えてくることを経験した開発者が一定数いるためです。
注目すべきは、OpenAIがGPT-5 Turboを「より温かくフレンドリー」なトーンに調整したと発表した点です。X(旧Twitter)の研究者コミュニティでは、これを「おべっか問題(Sycophancy)の再来」として懸念する声が上がっています。おべっか問題とは、モデルがユーザーの意見に同調しすぎて批判的なフィードバックを避けたり、実際には誤りであっても「良い考えですね」と肯定してしまう傾向のことです。2025年にも同様の問題が一度発覚しており、その再発を心配する専門家からの声が出ています。
デスクタスクベンチマークで75.0%という数値は、「一般的なオフィスワーカーが達成できる水準に到達した」とOpenAIは主張しています。メール作成、スプレッドシートの操作、資料の要約といった業務タスクにおいて、AIが人間の補助役ではなく実質的な担い手になり得る段階に近づいていることを示すものです。今後は業務自動化への活用が本格化することが予想され、ホワイトカラー職の在り方を問う議論がさらに広がっていくとみられます。