Model Releases

Community

OpenAIが創薬特化型GPT-Rosalindを更新、GPT-5.5を全領域で上回りトークン消費31%削減

OpenAIは創薬・生命科学向けに特化したAIモデル「GPT-Rosalind」をアップデートし、汎用モデルであるGPT-5.5と比較して全テスト領域で優れた性能を達成しつつ、トークン消費量を31%削減したと発表しました。ゲノミクス解析、創...

Community

Anthropicが米政府の輸出規制指令でClaude Fable 5とMythos 5を全世界停止 — 外国籍ユーザー除外が技術的に不可能と判断

Anthropicは米国政府の安全保障上の輸出規制指令を受け、6月9日にリリースされたばかりのClaude Fable 5とClaude Mythos 5へのアクセスを全世界で停止しました。外国籍ユーザーをリアルタイムで除外する技術的手段が...

Community

Claude Fable 5登場：常時アダプティブ思考・100万トークンコンテキスト・12.8万トークン出力 — しかし3日で輸出規制により停止

Anthropicは2026年6月9日にClaude Fable 5を発表しました。「常時オンのアダプティブ思考（Adaptive Thinking）」機能、100万トークンのコンテキストウィンドウ、最大12.8万トークンの出力に対応し、ほ...

Community

Claude Opus 4.8がBenchLMリーダーボード首位、Artificial Analysis Intelligenceインデックスで61.4点を記録しGPT-5.5を超える

AnthropicはClaude Opus 4.8をリリースし、Artificial Analysis Intelligenceインデックスで61.4点を記録してGPT-5.5を上回り、BenchLMリーダーボードで首位を獲得しました。Cl...

Community

GoogleがGemini CLIを6月18日付けで廃止、コミュニティ貢献6000件以上を吸収したクローズドソースのAntigravity CLIへ移行

Googleは本日6月18日をもって、オープンソースのTypeScript実装として公開し6000件以上のコミュニティプルリクエストを受け入れてきたGemini CLIを廃止し、クローズドソースのGo製ツール「Antigravity CLI...

Community

Claude Fable 5正式リリース — コーディング・科学研究・ビジョンで最高水準達成も、リリース3日後に米政府の輸出指令で一時停止

Anthropicは6月9日、同社の新世代モデルラインアップ「Mythosクラス」初の一般公開モデルとなる「Claude Fable 5」を正式リリースしました。コーディング・科学研究・ビジョンの各ベンチマークで最高水準を達成したとされてい...

Community

Google Gemini 3.5 Flash正式リリース——毎秒284トークン・入力$1.5/百万トークンで速度と低価格を両立

GoogleがGemini 3.5 Flashを正式リリースしました。毎秒284トークンという高速推論と、入力$1.5・出力$9（百万トークンあたり）という低価格を組み合わせており、リアルタイム応答が求められるアプリケーションや大量処理が必...

Community

AppleがWWDC 2026でGemini搭載Siriを発表——iOS 27ではClaudeも選択可能なマルチAI時代へ

AppleはWWDC 2026において、Googleの「Gemini」を活用した新しいSiriを発表しました。同時に「マルチAI拡張機能システム」を導入し、AnthropicのClaudeや他社モデルをiOSの標準AIオプションとして選択で...

Community

OpenAIが6月中にGPT-5.6リリースを予告——自律エージェント機能とマルチステップ推論を強化

OpenAIは6月中にGPT-5.6をリリースする予定であることを発表しました。高度な推論・マルチステップ意思決定の強化と、反復タスクでの人間監督を低減する「エージェントワークフロー」が中心的なアップデートとなる見込みです。4月23日にリリ...

Community

WWDC 2026：AppleがGoogle Gemini搭載の新Siriを発表、年間約10億ドルの契約でiOS 27と共に秋リリース

AppleはWWDC 2026において、Google Geminiを基盤とした新しいSiriを発表しました。iOS 27と共に2026年秋のリリースが予定されており、年間約10億ドル規模のGemini契約のもと、複雑なクエリ処理はGoogl...

Official

AnthropicがClaude Opus 4.8をリリース——Sonnet 4.8はnpmパッケージのコードリークで存在発覚も正式発表なし

Anthropicは2026年5月28日、フラッグシップモデル「Claude Opus 4.8」を正式リリースしました。前世代からの性能向上が利用者から好評を得ている一方、「Claude Sonnet 4.8」の存在はClaude Code...

Community

Gemini 3.5 Flash、コーディングで前世代Pro超えも推論精度に苦言——Google I/O 2026での発表を検証

Google I/O 2026でGoogleが発表したGemini 3.5 Flashは、コーディングとエージェントタスクで前世代Gemini 3.1 Proを上回る速度（4倍高速化）を達成したと公表されています。一方で、コミュニティからは...

Community

Google Gemini 3.5 Pro、6月リリースへ——200万トークンコンテキストとDeep Thinkモードでフロンティアモデルに挑む

GoogleはGoogle I/O 2026において、フラッグシップモデル「Gemini 3.5 Pro」の6月リリースを発表しました。200万（2M）トークンというAI業界最大水準のコンテキストウィンドウ、段階的推論を行う「Deep Th...

Community

OpenAI GPT-5.4 Thinking、経済的タスクベンチ「GDPVal」で83%達成——人間専門家レベルに到達も指示追従の一貫性に課題

OpenAIの最新推論モデル「GPT-5.4 Thinking」が、経済的価値のあるタスクを測定するベンチマーク「GDPVal」において83%のスコアを達成し、人間専門家レベルに到達したとの評価を受けています。幻覚率の低さが実務利用者から高...

Official

AnthropicがClaude Fable 5を一般公開——SWE-bench Verified 95%・Pro 80%を達成、入力100万トークン10ドルで提供

Anthropicは2026年6月9日、次世代フラッグシップモデル「Claude Fable 5」を一般公開しました。コーディングエージェント評価の標準指標であるSWE-bench Verifiedで95%、より難度の高いSWE-bench...

Community

Google I/O 2026でGemini 3.5 Flash発表——旗艦モデル並み性能を前世代比4倍速で実現、個人AI「Gemini Spark」も同時公開

Googleは2026年5月19日に開催されたGoogle I/O 2026で、高速推論モデル「Gemini 3.5 Flash」を正式発表しました。コーディングおよびエージェンティックベンチマーク（AIが自律的にタスクをこなす能力の評価）...

Community

OpenAIがChatGPT Dreaming V3を展開——事実再現率82.8%・好み追従率71.3%で記憶能力が5倍に向上

OpenAIは2026年6月4日、ChatGPT Plus・Proユーザー向けに新しいメモリアーキテクチャ「Dreaming V3」の展開を開始しました。過去の会話から自動的にコンテキストを合成し、事実再現率82.8%・ユーザーの好みへの追...

Community

MicrosoftがBuild 2026でMAIモデルファミリー7種を発表——推論・画像・43言語音声認識など完全自社開発AIへ

Microsoftは2026年6月2日に開催した年次開発者カンファレンス「Microsoft Build 2026」において、「MAI（Microsoft AI）」モデルファミリーから7種の完全自社開発モデルを発表しました。推論特化の「MA...

Community

Anthropic、最強モデル「Claude Fable 5」を一般公開——サイバー・化学・生物領域に安全分類器を適用、入力100万トークンあたり10ドルで提供

Anthropicは2026年6月9日、同社史上最も強力なモデルとなる「Claude Fable 5」を一般公開しました。研究者・企業向けに限定提供されていた「Claude Mythos 5」と同一アーキテクチャを基盤としており、API経由...

Community

ClaudeがiOS 27・macOS 27に統合——AppleのFoundation Models経由で全プラットフォーム対応、法律MCPも公開

AnthropicはClaudeがAppleのFoundation Modelsフレームワークを通じてiOS 27・iPadOS 27・macOS 27・visionOS 27・watchOS 27の全プラットフォームに対応することを発表し...

Community

ChatGPTに「Dreaming V3」メモリアーキテクチャ導入——全会話から自動統合、事実想起精度82.8%・嗜好適合率71.3%を達成

OpenAIは2026年6月4日、ChatGPTに「Dreaming V3」と呼ばれる新世代メモリシステムの展開を開始しました。従来のメモリ機能が明示的な「記憶してください」という指示を必要としていたのに対し、Dreaming V3は全会話...

Community

Google、Gemini 3.5 Proを6月中にリリース予定——Chrome統合・AIエージェント「Gemini Spark」・動画生成「Gemini Omni」も発表

Googleは2026年のGoogle I/Oで、Gemini 3.5 Proを2026年6月中にリリースすると発表しました。すでに5月19日からAPI・Geminiアプリ・検索のAIモードで提供中のGemini 3.5 Flashに続く上...

Community

AnthropicがClaude Fable 5を一般公開——SWE-bench 95%達成の最強モデルと安全分類器問題が同時勃発

Anthropicは2026年6月9日、最上位モデル「Claude Fable 5」を一般公開しました。コーディング評価指標SWE-bench Verifiedで95%というスコアを達成し、100万トークンのコンテキストウィンドウと常時適応...

Community

ChatGPTの記憶システムが「Dreaming」にアップグレード——旅行後に自動で過去形に書き換わる時間認識型の長期記憶をPlusユーザーに展開

OpenAIはChatGPTの記憶システムを大幅に強化した「Dreaming」機能を、PlusおよびProユーザー向けに米国で展開を開始しました。従来の記憶は一度保存されると固定されていましたが、Dreamingでは「7月にシンガポールへ行...

Community

MetaがLlamaを捨てて「Muse Spark」へ——Meta Superintelligence Labs初の独自モデルはクローズド・マルチモーダル推論、オープンソース路線から大転換

Metaは2026年4月9日、新設したMeta Superintelligence Labs（MSL）から初の独自AIモデル「Muse Spark」を発表しました。Llamaシリーズとは異なり非公開の独自クローズドモデルとして提供されており...

Community

Google I/O 2026でGemini 3.5とエージェントAI時代を宣言——月間処理トークン3.2京、ユーザー9億人超の規模で攻勢

Googleは開発者向け年次イベントGoogle I/O 2026で、新世代マルチモーダルモデル「Gemini 3.5」と動画生成対応の「Gemini Omni」、個人AIエージェント「Gemini Spark」を一挙に発表しました。月間処...

Community

MicrosoftがMAIファミリー7モデルを発表——旗艦のMAI-Thinking-1はAIME 94.5%達成、OpenAI依存脱却を明確化

Microsoftは2026年6月2日、Build 2026カンファレンスで自社開発AIモデルファミリー「MAI（Microsoft AI）」7種を発表しました。旗艦推論モデル「MAI-Thinking-1」は35Bのアクティブパラメータ数...

Community

AppleがWWDC 2026で「Siri AI」を発表——iOS 27に統合、アプリ横断の複雑タスク自動化が可能に

Appleは2026年6月8日、年次開発者会議WWDC 2026において「Siri AI」を発表しました。iOS 27に統合されるこのアップデートは、これまでにない規模のSiriの全面刷新であり、アプリを横断した複雑なタスクの自動化・長文対...

Official

Anthropic「Claude Opus 4.8」がAI知性指数で初の60点超え——61.4点で首位、自己誤り検出能力は前作比4倍

Anthropicは最新フラッグシップモデル「Claude Opus 4.8」をリリースしました。Artificial Analysis（第三者AIベンチマーク機関）の知性指数（Intelligence Index）において業界で初めて60...

Community

MicrosoftがBuild 2026で自社AI「MAIファミリー」7種を発表——MAI-Thinking-1がSWEベンチマーク最先端水準、OpenAI依存低減を宣言

Microsoftは2026年6月2日に開催したBuild 2026において、自社開発AIモデル群「MAIファミリー」の7種を発表しました。旗艦推論モデルである「MAI-Thinking-1」はソフトウェアエンジニアリングベンチマーク（SW...

Community

OpenAIが創薬・ゲノミクス特化モデル「GPT-Rosalind」を発表——医薬品化学から実験ワークフロー設計まで統合

OpenAIは2026年6月3日、生命科学研究向けに特化した大規模言語モデル「GPT-Rosalind」を発表しました。GPT-5.5のエージェントコーディング能力をベースに、医薬品化学・ゲノム解析・実験ワークフロー設計に特化した専門知識を...

Community

MiniMax M2.7・M3 Highspeed・Alibaba Qwen3 Coder Nextなど中国系モデルが6月第1週に集中リリース——平均2日に1本のペースで西側を圧倒

2026年6月1日から6日にかけての1週間で、中国のAI企業MiniMaxがM3・M2.5 Highspeed・M2.7 Highspeedを、AlibabaがQwen3 Coder Nextを相次いで公開しました。平均2日に1本という異例...

Community

Apple WWDC 2026：Siriが年10億ドルのGemini契約で全面刷新、iOS 27の「Extensions」でClaude・ChatGPTもSiri経由で選択可能に

Appleは2026年6月9日のWWDC基調講演で、GoogleのカスタムGeminiモデルを年間約10億ドルでライセンスしてSiriを全面刷新することを発表しました。これと同時に、iOS 27・iPadOS 27・macOS 27で提供さ...

Community

MicrosoftがBuild 2026でMAI-Code-1-FlashとMAI-Thinking-1を発表——OpenAIデータ不使用の自社製推論モデルがAIME 2026で94.5%を達成

Microsoftは2026年6月開催のMicrosoft Build 2026で、同社初の自社開発コーディングモデル「MAI-Code-1-Flash」と推論モデル「MAI-Thinking-1」を発表しました。どちらのモデルもOpenA...

Community

Claude Opus 4.8がArtificial Analysis Intelligence Indexで首位——SWE-bench Verified 88.6%、最大1000サブエージェント並列で大規模コード移行が現実に

Anthropicが2026年5月28日にリリースしたClaude Opus 4.8が、独立評価機関Artificial AnalysisのIntelligence IndexでEloスコア1890（インデックス値61.4）を記録し、首位の...

Community

AppleがWWDC 2026で「Siri AI」発表——深い会話能力と全システム統合、iOS 27で2026年中に提供へ

AppleはWWDC 2026において、大幅にリニューアルされたAIアシスタント「Siri AI」を発表しました。従来のSiriとは一線を画す深い会話能力、システム全体への統合、そして再設計されたインターフェースを備え、iOS 27と共に2...

Community

OpenAI Codexが全職種に開放——弁護士・データアナリスト・PMもAIコーディング支援を利用可能に

OpenAIは2026年6月3日、エンジニア向けとして知られていたコーディング支援ツール「Codex」を、弁護士・データアナリスト・プロダクトマネージャー・オペレーションチームなどエンジニア以外のビジネスユーザー全般に開放しました。あらゆる...

Community

MicrosoftがOpenAI依存脱却へ自社AIモデル7種を発表——MAI-Thinking-1など、GPT比10倍のコスト効率を主張

Microsoftが自社開発のAIモデル群「MAI（Microsoft AI）シリーズ」として7種類のモデルを一挙公開しました。推論特化の「MAI-Thinking-1」、コーディング向けの「MAI-Code-1-Flash」、画像生成の「...

Official

AnthropicがClaude Opus 4.8をリリース、同日に評価額9650億ドルのシリーズHで650億ドル調達を発表

Anthropicは2026年5月28日、最新フラッグシップモデル「Claude Opus 4.8」を公開すると同時に、AltimeterCapital・Dragoneer・Greenoaks・Sequoiaが主導するシリーズH資金調達ラウ...

Community

MicrosoftがBuild 2026でOpenAIデータを使わない独自モデルMAI-Thinking-1とMAI-Code-1-Flashを発表、GitHub CopilotのGPT依存脱却が本格化

Microsoftは2026年6月2日のMicrosoft Build 2026において、OpenAIのデータを一切使用しない初の自社製推論モデル「MAI-Thinking-1」と、50億パラメータのコーディング特化モデル「MAI-Code...

Community

Google Gemini 3.5 Pro、200万トークンコンテキスト窓とDeep Think推論モード搭載で6月内のGA公開へ——Google I/Oでの「来月まで待って」発言から1カ月

2026年5月19日のGoogle I/O 2026で予告されたGemini 3.5 Proが、200万トークンのコンテキスト窓と「Deep Think」推論モードを搭載して6月中に一般公開（GA）される見込みだ。6月7日時点ではGoogl...

Community

OpenAIがGPT-5.5 Instantを全ChatGPTユーザー向けのデフォルトモデルに昇格——ハルシネーションを52.5%削減、GPT-4.5は6月27日退役へ

OpenAIは全ChatGPTユーザーを対象に、GPT-5.5 Instantを新しいデフォルトモデルとして展開を開始した。応答の正確性・簡潔性・画像理解・STEM領域での支援が改善されており、旧デフォルトのGPT-5.3 Instantを...

Community

Inception Labsの推論LLM「Mercury 2」が毎秒1000トークン超を達成——拡散アーキテクチャでGPT-5 Miniと同等精度

Inception Labsは、拡散（Diffusion）ベースの推論LLM「Mercury 2」を公開しました。従来の自己回帰的なトークン生成を廃止し、並列生成と反復的精錬を組み合わせた独自アーキテクチャにより、速度最適化モデルの5倍以上...

Community

ZyphraがAMD GPUのみで訓練したオープンモデル「ZAYA1-8B」公開——推論時に活性化するのは760Mパラメータのみ

AIスタートアップのZyphraは、Apache 2.0ライセンスで商用利用も可能なオープンモデル「ZAYA1-8B」をリリースしました。スパースルーティングアーキテクチャを採用しており、80億パラメータを持ちながら推論時に活性化されるのは...

Community

AlibabaがエージェントコーディングLLM「Qwen3-Coder-Next」公開——262Kコンテキスト・入力$0.11/Mトークンの低コスト設計

Alibabaの研究チームQwenは、コーディング特化型大規模言語モデル「Qwen3-Coder-Next」を公開しました。総パラメータ数80Bながら推論時には3Bパラメータのみを活性化するMoE（Mixture of Experts）アー...

Community

MicrosoftがBuild 2026でMAIモデルファミリー7種を一挙発表——1370億パラメータのコーディングモデルや画像生成など

Microsoftは開発者向けカンファレンス「Build 2026」において、独自AIモデルブランド「MAI」ファミリーから7種類の新モデルを一挙発表しました。推論モデル「MAI-Thinking-1」、GitHub Copilot専用コー...

Community

Google Gemini 3.5 Flashリリース——前世代Proを上回る性能を4倍速・100万トークン1.5ドルで実現

Googleは「Gemini 3.5 Flash」を正式リリースしました。コーディングやエージェントタスクにおいてGemini 3.1 Proをほぼ全ベンチマークで上回りながら、入力100万トークンあたり1.5ドルという業界最安水準のコスト...

Official

AnthropicがClaude Opus 4.8をリリース——SWE-bench 88.6%達成、数百の並列サブエージェントと2.5倍速Fastモード搭載

AnthropicはClaude Opus 4.8を正式リリースしました。ソフトウェアエンジニアリングの実タスクを評価するベンチマーク「SWE-bench Verified」で88.6%を達成し、Claude Codeのセッション内で数百の...

Community

MiniMax M3がSWE-Bench Pro 59.0%でGPT-5.5超えを主張——100万トークンコンテキストのオープンウェイトモデル登場

中国のAIスタートアップMiniMaxが、100万トークンコンテキストとマルチモーダルなコンピュータ操作機能を備えた「M3」を発表しました。ソフトウェアエンジニアリングベンチマーク「SWE-Bench Pro」で59.0%を記録し、GPT-...

Community

Claude Opus 4.8、人工分析インテリジェンス指数61.4点でGPT-5.5を抑えて首位——コーディングでも2冠達成

Anthropicが5月28日にリリースした「Claude Opus 4.8」が、AI性能を総合評価する「人工分析インテリジェンス指数」で61.4点を記録し、OpenAIの「GPT-5.5」（60.2点）を上回ってトップの座を獲得しました。...

Community

Google、Gemini 3.5 Pro を6月中にリリースへ——Pichai自ら宣言、Predictionマーケットは6月下旬を予測

GoogleはGoogle I/O 2026ですでに「Gemini 3.5 Flash」をリリース済みであることを明らかにし、さらに上位モデル「Gemini 3.5 Pro」について、Sundar Pichai CEOが「来月（6月）中に」...

Community

Microsoft、自社開発AI「MAI-Code-1-Flash」をGitHub Copilot全ユーザーに展開——137B MoEでClaude Haikuクラスのコスト

MicrosoftはBuild 2026にて、137Bパラメーター（アクティブ5B）のMixture-of-Experts（MoE）アーキテクチャを採用した自社開発コーディングモデル「MAI-Code-1-Flash」を発表し、GitHub...

Community

GoogleがGemini 3.5 FlashをSearchとGeminiアプリのデフォルトに採用：独立ベンチマークで一部課題も指摘

Googleは2026年5月19日にリリースした「Gemini 3.5 Flash」を、Google検索とGeminiアプリのデフォルトモデルとして採用しました。エージェント向けおよびコーディング作業に最適化されたモデルで、Terminal...

Community

GPT-5.5リリース：SWE-bench Pro 58.6%・Terminal-Bench 82.7%を達成、リリース直後にMiniMax M3に追い抜かれる

OpenAIが2026年5月5日にGPT-5.5をリリースしました。Terminal-Bench 2.0で82.7%、SWE-bench Proで58.6%、GDPvalで84.9%を記録し、長期エージェント実行・コンピュータ使用能力・トー...

Community

Claude Opus 4.8リリース：SWE-bench Verified 88.6%達成、価格据え置きで並列エージェントワークフローに対応

Anthropicは2026年5月28日、最新の推論フラッグシップモデル「Claude Opus 4.8」をリリースしました。ソフトウェアエンジニアリングのベンチマークであるSWE-bench Verifiedで88.6%を記録し、AIによ...

Community

MicrosoftがBuild 2026でMAI-Thinking-1を発表：AIME 2026で94.5%、GPT-5.5比コスト効率10倍を主張

Microsoftは2026年6月2日に開催したBuild 2026において、独自開発のAIモデル「MAI-Thinking-1」と「MAI-Code-1-Flash」を発表しました。350億アクティブパラメータを持つMoE（混合エキスパー...

Community

MicrosoftがBuild 2026でMAIモデル7種を公開、OpenAI依存からの独立戦略を鮮明に

Microsoftは開発者向け年次イベント「Build 2026」において、自社開発の大規模言語モデル(LLM)ファミリー「MAI（Microsoft AI）」シリーズ計7種を発表しました。ラインナップには推論特化型の「MAI-Thinki...

Community

xAI Grok 4.3リリース、手順を記憶する「Skills」とSharePoint・GitHub連携「Connectors」を標準搭載

xAIはGrok 4.3をリリースし、ユーザーが繰り返し使う手順・スタイルを記憶する「Skills」機能と、SharePoint・Google Workspace・GitHub・Notionなどの外部サービスと直接連携する「Connecto...

Community

GPT-5.5 Instantがアップデート、日常会話の自然さと実用タスク精度が向上——低コストモデルの競争力をさらに強化

OpenAIはChatGPTおよびAPIで提供している「GPT-5.5 Instant」をアップデートし、応答スタイルと品質を改善したと発表しました。読みやすさの向上、日常会話での自然なペース配分の改善、そして実用的なヘルプタスクにおける精...

Community

Google Gemini 3.5 Flash、MCP Atlas 83.6%・Elo 1656でデフォルトモデルに——全ユーザーのAI検索体験が刷新

Google I/O 2026において、Googleは最新モデル「Gemini 3.5 Flash」をGeminiアプリおよびAIモード検索のデフォルトモデルとして採用することを正式発表しました。Terminal-Bench 2.1で76....

Community

Microsoft Build 2026：350億パラメータの自社初推論モデル「MAI-Thinking-1」をプレビュー公開——OpenAI依存からの脱却を示す7モデルを一挙発表

Microsoft Build 2026（6月2〜3日）にて、同社初の推論モデル「MAI-Thinking-1」が発表されました。350億パラメータ、256Kトークンのコンテキストウィンドウを備え、コーディング性能評価指標SWE-Bench...

Community

Google Gemini 3.5 FlashがGA——100万トークンコンテキスト・4倍のスループット、入力$1.50/1Mでコーディングタスクがフロンティア性能に到達

GoogleがGemini 3.5 Flashを正式一般提供（GA: General Availability）しました。100万トークンのコンテキストウィンドウを持ち、コーディングおよびエージェントタスクのベンチマークでGemini 3....

Community

OpenAIがGPT-5.5 Instantを更新——応答スタイルと読みやすさを改善、GPT-4.5は6月27日に廃止予定

OpenAIがChatGPTおよびAPIのGPT-5.5 Instantを更新し、応答スタイルと品質を向上させました。より読みやすく、日常会話でより自然なペーシングを実現したとしています。あわせてGPT-4.5がChatGPTから2026年...

Community

Gemini 3.1 Proが推論・データ分析で首位獲得—マルチモーダル処理の業界標準化が加速、AI Intelligence Indexで57点

GoogleのGemini 3.1 Proが推論タスクおよびデータ分析ベンチマークで最上位スコアを記録し、テキスト・画像・音声・動画をネイティブに処理するマルチモーダルモデルの事実上の標準として業界内での評価を高めています。独立機関Vell...

Official

Claude Opus 4.8リリース—AI Intelligence Index 61.4点でGPT-5.5を抑えて総合首位を維持

AnthropicはClaude Opus 4.8を正式リリースしました。第三者機関による総合評価指標「Artificial Analysis Intelligence Index」で61.4点を記録し、OpenAIのGPT-5.5（60....

Community

GPT-5.6リーク情報浮上—コンテキスト150万トークン・内部コードネーム「iris-alpha」、Polymarketで6月末リリース確率89%

OpenAIのCodexシステムのロールアウトログから「gpt-5.6」という文字列と内部コードネーム「iris-alpha」が発見され、AIコミュニティが大きく沸き立っています。wavespeed.aiが詳細を報告したところによると、15...

Community

NvidiaがGTC TaipeiでVera Rubinアーキテクチャ採用の新プロセッサとRTX Spark搭載ノートPCを発表、AI時代の個人向けコンピューティングに照準

NvidiaのCEOジェンソン・ファン氏は台北で開催されたGTC Taipei 2026の基調講演にて、次世代アーキテクチャ「Vera Rubin」を採用した新型プロセッサ群と、「RTX Spark」スーパーチップを搭載した新型ノートPCを...

Community

OpenAI、GPT-4.5を6月27日に廃止予告　後継のGPT-5.5 Instantは幻覚を52.5%削減

OpenAIが、ChatGPTのデフォルトモデルとして使われてきた「GPT-4.5」を2026年6月27日をもって廃止すると正式発表しました。後継となる「GPT-5.5 Instant」は幻覚（ハルシネーション：AIが事実に基づかない内容を...

Community

OpenAIがスタンドアロン音声デバイス向けに音声モデルアーキテクチャを全面刷新、Q1 2026で新世代実装

OpenAIがスタンドアロン型オーディオデバイスの投入に向けて、音声AIモデルのアーキテクチャを2026年第1四半期に全面刷新したことが報告されています。より自然で感情豊かな発話・高速応答・割り込み処理の改善などが盛り込まれており、「耳だけ...

Community

Google I/O 2026でGemini 3.5 Flash GA・24時間AIエージェント「Spark」・ビデオ生成「Omni」を一斉発表

GoogleはGoogle I/O 2026において、Gemini 3.5 FlashのGA（一般提供）版、24時間365日稼働のAIエージェント「Spark」、ビデオ生成AI「Omni」、そして新デザイン言語「Neural Express...

Community

OpenAI元CTOのMira MuratiがリアルタイムマルチモーダルAI「Thinking Machines」を披露——音声・映像・テキストを連続的に同時処理

OpenAI元CTOのMira Muratiが設立したスタートアップ「Thinking Machines」が、音声・映像・テキストを同時にリアルタイム処理するマルチモーダルAIシステムを初公開しました。従来のプロンプト入力→応答生成という離...

Community

GoogleがGemini 3.1 Flash Liteをリリース——GPT-5.5 Instantと同週公開で大手AI企業の軽量モデル競争が本格化

Googleが5月8日に「Gemini 3.1 Flash Lite」をリリースしました。Gemini 3.1シリーズの中で最も軽量なバリアントとして、応答速度とAPI呼び出しコストの低減を最優先に最適化しています。OpenAIがGPT-5...

Community

Google I/O 2026まで48時間：Gemini 4.0・AndroidXRスマートグラス・AI特化ノート「Googlebook」が発表へ

5月19日（現地時間）に開幕するGoogleの年次開発者会議「Google I/O 2026」まで48時間を切り、発表予定の内容が次々と判明しています。最大の目玉はGemini 4.0モデルの正式発表で、アプリを横断して予約・購入まで完結す...

Community

GPT-5.5 InstantがChatGPTのデフォルトモデルに昇格——医療・法律・金融分野でのハルシネーション大幅低減

OpenAIは、GPT-5.5の軽量・高速版「GPT-5.5 Instant」をリリースし、ChatGPTのデフォルトモデルとして採用しました。医療・法律・金融といった専門分野での事実誤認（ハルシネーション）の低減と高速なレスポンスを両立し...

Community

非トランスフォーマーアーキテクチャで1200万トークンコンテキストを実現——SubQ 1M-Previewが2900万ドル調達とともに登場

スタートアップSubquadraticが2900万ドル（約43億円）のシード資金調達と同時に、商用初の「サブ二次（sub-quadratic）アテンション」アーキテクチャを採用した大規模言語モデル（LLM）「SubQ 1M-Preview」...

Community

AnthropicがClaude Opus 4.6と4.7を相次いで発表——100万トークン対応・Dreamingモード搭載も、トークン消費35%増で開発者から批判

AnthropicはClaude Opus 4.6および後継のClaude Opus 4.7を相次いで発表しました。Opus 4.6は100万トークンのコンテキストウィンドウに対応し、非同期の深層推論を行う「Dreamingモード」を実装。...

Community

DeepSeek V4 Pro/Flashを同時リリース - 低コスト高速推論でオープンソースLLM競争が新局面に

中国のAI研究企業DeepSeekは2026年5月、ハイエンド向けの「DeepSeek V4 Pro」と軽量版の「V4 Flash」を同時にリリースしました。推論速度の大幅な向上とコストの低減を両立させたとされており、OpenAIやAnth...

Community

OpenAI、GPT-5.5 InstantをChatGPTの全ユーザーデフォルトモデルに昇格——医学・法律・金融での幻覚生成を52.5%削減

OpenAIはGPT-5.5 Instantを全ユーザー向けChatGPTのデフォルトモデルとして採用したと発表しました。同モデルは医学・法律・金融といった専門領域での幻覚生成（ハルシネーション）を前モデル比で52.5%削減し、あわせてパー...

Community

Google、Gemini 3.1 UltraとProを正式リリース——200万トークンのネイティブコンテキストでテキスト・画像・音声・動画をフルカバー

Googleは次世代マルチモーダルAIモデル「Gemini 3.1 Ultra」と「Gemini 3.1 Pro」を正式にリリースしました。Ultarは200万トークンのネイティブコンテキストウィンドウを備え、テキスト・画像・音声・動画のす...

Community

スタートアップSubquadraticが「SubQ」を発表——1200万トークン対応・FlashAttentionより52倍高速・コスト95%削減を主張、業界は「AI版Theranos」か革新かで二極化

AI技術スタートアップのSubquadraticは、1200万トークンのコンテキストウィンドウ対応・既存の標準実装であるFlashAttentionより52倍高速・コスト95%削減という驚異的な性能を主張する新型LLM（大規模言語モデル）「...

Community

OpenAIのGPT-5.5-Cyber、EU向けに限定解放——Deutsche TelekomやSophosなど数十社が防御利用で参加

OpenAIは2026年5月11日、サイバーセキュリティ特化モデル「GPT-5.5-Cyber」のアクセス対象をEU市場に拡大したと発表しました。Deutsche Telekom、BBVA、Sophos、Atos SEなど欧州の数十社が限定...

Community

Google I/O直前にGemini Sparkがリーク——アプリ横断エージェント機能、高感度アクションは確認ステップ付きで実装

Google I/O 2026（5月19日開催）を5日前に控えた5月14日、GeminiアプリのベータAPKから上位エージェント機能「Gemini Spark」の詳細が流出しました。9to5Googleが入手した情報によると、Sparkはス...

Community

AnthropicがSMB向け「Claude for Small Business」発表——QuickBooks・HubSpot・Canvaなど主要ツールと即座に連携

Anthropicは中小企業（SMB）向けの新サービス「Claude for Small Business」を発表しました。QuickBooks・PayPal・HubSpot・Canva・DocuSign・Google Workspace・...

Official

Claude Opus 4.7リリース——新トークナイザーで最大35%多消費と批判殺到、「実質値上げ」「性能退行」の声相次ぐ

Anthropicが最新モデル「Claude Opus 4.7」をリリースしました。計画フェーズでの自己修正機能や刷新されたトークナイザーを搭載しますが、新トークナイザーが従来比で最大35%多くトークンを消費するとして、APIを利用するデベ...

Community

AlibabaのQwen 3.6 Max-PreviewがSWE-bench Proなど主要AIコーディングベンチマーク6冠――オープンウェイト系で初のフロンティア超えを達成

Alibaba Cloudが開発するオープンウェイト大規模言語モデル「Qwen 3.6 Max-Preview」が、AIコーディング能力の国際標準指標として広く使われるSWE-bench Proと、実環境でのターミナル操作能力を測るTerm...

Community

OpenAI、GPT-5.5を全ChatGPTユーザーに展開――幻覚50%以上削減・コンテキスト1Mトークンを実現

OpenAIは、GPT-4.5以来となる完全再学習モデル「GPT-5.5」を全ChatGPTユーザーに向けて展開しました。同モデルは最大100万（1M）トークンのコンテキストウィンドウと、前世代比で50%以上の幻覚（ハルシネーション）削減を...

Community

DeepSeek V4リリース――オープンソース最高水準の性能を西側比5〜25倍安い推論コストで実現

中国のAI研究機関DeepSeekは、最新モデル「DeepSeek V4-Pro」および「DeepSeek V4-Flash」をオープンウェイト（重みを公開する形式）でリリースしました。CNBCの報道によると、同モデルはエージェントタスクや...

Community

Subquadratic社が2900万ドル調達、独自アーキテクチャで1200万トークンのコンテキストウィンドウを実現するLLM「SubQ」を公開

マイアミを拠点とするスタートアップSubquadraticは2026年5月5日、シードラウンドで2900万ドル（約43億円）を調達すると同時に、独自アーキテクチャ「SSA（Subquadratic Sparse Attention、サブクオ...

Community

OpenAIがEUのサイバーセキュリティチームに「GPT-5.5-Cyber」限定プレビューを提供、防御特化モデルがAI外交の新形態に

OpenAIは5月11日、EU企業・政府機関・EU AIオフィスなど欧州の審査済みサイバーセキュリティチームを対象に、防御専用AIモデル「GPT-5.5-Cyber」の限定プレビューを開始したと発表しました。セキュアコードレビュー・脆弱性ト...

Official

AnthropicがClaude Opus 4.7を正式リリース、SWE-bench 87.6%・画像解像度3倍超・価格は据え置き

Anthropicは、フラッグシップモデル「Claude Opus 4.7」を全製品およびAPI、Amazon Bedrock、Google Vertex AI、Microsoft Foundryで正式に提供開始しました。コーディング能力を...

Community

GPT-5.5 InstantがChatGPTの新デフォルトモデルに、医療・法律・金融での幻覚を前モデル比52.5%削減

OpenAIは5月5日、「GPT-5.5 Instant」をChatGPTの全ユーザー向けデフォルトモデルとして展開開始しました。前モデル「GPT-5.3 Instant」と比較して医療・法律・金融といった高リスク分野での幻覚（ハルシネーシ...

Community

AnthropicがClaude Managed Agentsに「Dreaming」追加——自己改善メモリとMicrosoft 365連携で実用化加速

Anthropicがエンタープライズ向けAIエージェントサービス「Claude Managed Agents」に3つの新機能を追加しました。中でも注目を集めているのが「Dreaming」と呼ばれるメモリ最適化機能で、エージェントが過去のセッ...

Community

AnthropicがClaude Opus 4.7とClaude Designを正式発表——コード・セキュリティ・デザイン三領域に同時展開

Anthropicが最新フロンティアモデル「Claude Opus 4.7」を正式リリースするとともに、デザイン特化ツール「Claude Design」とエンタープライズ向けセキュリティ機能「Claude Security」を同時発表しまし...

Community

OpenAI、GPT-5.5 InstantをChatGPTのデフォルトモデルに採用—医療・法律分野の幻覚を52.5%削減

OpenAIは2026年5月5日、新モデル「GPT-5.5 Instant」を正式リリースし、ChatGPTのデフォルトモデルとして採用したと発表しました。医学・法律・金融の三分野における幻覚（ハルシネーション）を52.5%削減しながら、応...

Community

DeepSeek V4リリース—1兆パラメータ超でGPT-5.5と同等性能をわずか34分の1のコストで実現

中国のAI企業DeepSeekが「DeepSeek V4」を正式公開しました。1兆パラメータを超える規模を持ちながら、GPT-5.5と同等の性能をわずか34分の1のコストで実現し、オープンダウンロード可能な形式での提供を開始しています。競技...

Community

Google、200万トークンコンテキストのGemini 3.1 Ultraを先行発表—テキスト・画像・音声・動画をネイティブ統合

Googleは、200万トークンのネイティブコンテキストウィンドウを持つ「Gemini 3.1 Ultra」を発表しました。テキスト・画像・音声・動画をシームレスにクロスモーダル処理できる設計を採用しており、Google I/O 2026で...

Official

Anthropic、Claude Opus 4.7を発表—ソフトウェアエンジニアリング能力とビジョン機能を大幅強化

Anthropicは最新フラッグシップモデル「Claude Opus 4.7」を発表しました。複雑なソフトウェアエンジニアリングタスクにおける性能を大幅に向上させたほか、ビジョン機能（画像理解能力）とプロフェッショナル出力品質も改善されてお...

Community

xAI、Grok 4.3を正式公開——100万トークンコンテキスト・音声クローン機能を備え積極的な低価格設定で市場を揺さぶる

イーロン・マスク率いるxAIは、大規模言語モデル「Grok 4.3」をAPIで正式公開しました。VentureBeatの報道によると、Grok 4.3は100万トークンのコンテキストウィンドウ、強化されたツール利用能力、そして先進的な音声ク...

Community

OpenAI、GPT-5.5 InstantをChatGPTの新デフォルトに——医療・法律分野の幻覚を52.5%削減し全ユーザーへ展開

OpenAIは5月5日、「GPT-5.5 Instant」をChatGPTの新たなデフォルトモデルとして全ユーザーへ展開しました。医療・法律・金融などのハイステークス分野における幻覚（ハルシネーション）が前モデル比で52.5%削減されており...

Community

OpenAIがGPT-5.5 InstantをChatGPTのデフォルトモデルに——ハルシネーション52.5%減、絵文字削減、Gmail連携でパーソナライゼーション強化

OpenAIは2026年5月5日、GPT-5.5 InstantをChatGPTの新しいデフォルトモデルとして正式公開しました。前世代のGPT-5.3 Instantと比較してハルシネーション（誤情報生成）が52.5%減少したほか、過剰な絵...

Official

AnthropicがSpaceX Colossusの22万基超GPU全利用契約を締結——Claude Codeの5時間制限を2倍に拡大、ProとMaxのピーク時間制限も撤廃

AnthropicはSpaceX（xAI）のColossusデータセンターが保有する22万基以上のNVIDIA GPUと300MWを超える電力リソースを全面的に活用する契約を締結しました。この大規模な計算インフラの確保により、有料プランのC...

Community

中国AI勢が12日間で4モデルを連続公開——GLM-5.1・M2.7・Kimi K2.6・DeepSeek V4がClaude Opus 4.7の3分の1以下のコストを達成

中国のAIスタートアップ4社が、わずか12日間でオープンウェイト（重みを公開）のコーディングモデルを相次いでリリースしました。Z.aiの「GLM-5.1」、MiniMaxの「M2.7」、Moonshotの「Kimi K2.6」、そしてDee...

Community

OpenAI、GPT-5.4からわずか6週間でGPT-5.5を投入——エージェントコーディング・コンピューター操作で大幅強化

OpenAIがGPT-5.5をリリースしました。前バージョンのGPT-5.4からわずか6週間というスピードで投入されており、エージェントコーディング、コンピューターユース（AIによるPC操作）、ナレッジワーク（調査・文書作成などの知識業務）...

Community

Google、Gemini 3.1 Ultraを発表——200万トークンのコンテキストでテキスト・画像・音声・動画をネイティブ統合処理

GoogleがGemini 3.1 Ultraをリリースしました。最大の特徴はコンテキストウィンドウ200万トークンで、テキスト・画像・音声・動画をネイティブに統合処理できるマルチモーダル能力です。長編文書の解析や大規模コードベースの把握、...

Community

DeepSeek V4がオープンウェイト・MITライセンスで公開—1兆パラメータ超のMoEでClaude Opus 4.6並みの性能を$0.04/Mトークン以下で実現

中国のAI研究機関DeepSeekが、最新モデル「DeepSeek V4-Pro」と「V4-Flash」の2モデルをMITライセンスのオープンウェイトとして公開しました。合計1兆パラメータを超えるMoE（Mixture of Experts...

Community

AlibabaのQwen 3.6 Max-PreviewがSWE-bench Proなどコーディング系6大ベンチマークで同時首位—オープン・クローズド双方を超える

中国アリババ（Alibaba）のAI部門が開発した「Qwen 3.6 Max-Preview」が、SWE-bench Pro・Terminal-Bench 2.0・SkillsBench・SciCodeを含むコーディング・エージェント系ベン...

Community

OpenAI、GPT-5.5 Instantをリリース——幻覚52.5%削減しChatGPT全ユーザーのデフォルトモデルに昇格

OpenAIは2026年5月5日、新モデル「GPT-5.5 Instant」をChatGPTの全ユーザー向けデフォルトモデルとして正式リリースしました。幻覚（ハルシネーション）の発生率を前モデル比52.5%削減したほか、過去の会話履歴・アッ...

Community

Anthropic、金融サービス向け10種のClaudeエージェント発表——BlackstoneとGoldman Sachsと15億ドル合弁も設立

Anthropicは2026年5月5日、投資銀行・資産運用・保険業界向けに特化した10種類のClaude AIエージェントを発表しました。ピッチブック自動作成を行う「Pitch Builder」、収益レポートを分析する「Revenue Re...

Community

OpenAI、GPT-5.5 InstantをChatGPT新デフォルトに――幻覚率52.5%削減で全ユーザーへ展開

OpenAIは5月5日、新しい言語モデル「GPT-5.5 Instant」をリリースし、全ChatGPTユーザー向けのデフォルトモデルとして順次展開を開始しました。前世代のGPT-5.4からわずか6週間という異例の速さでのアップデートとなり...

Community

中国4社が12日間でフロンティア級コーディングモデルを連続リリース――GLM-5.1・M2.7・Kimi K2.6・DeepSeek V4

Zhipu AIの「GLM-5.1」、MiniMaxの「M2.7」、Moonshotの「Kimi K2.6」、DeepSeekの「V4」という4つの大規模言語モデルが、2026年4月中旬からわずか12日間という短期間に相次いでリリースされま...

Community

Zhipu AI、幻覚率1.2%のGLM-4.7をリリース――Huawei Ascendチップで訓練、Claude Opusの136分の1のAPI価格

中国のZhipu AIが新モデル「GLM-4.7」を公開しました。同社によると幻覚率（AIが誤った情報を事実かのように生成する頻度）は1.2%と、フロンティアラボの中で最低水準を主張しています。さらに、APIコストは100万入力トークンあた...

Community

xAI、Grok 4.3を正式展開――価格40%削減・100万トークンコンテキスト・ネイティブ動画入力を実現

イーロン・マスク率いるxAIは4月30日、「Grok 4.3」APIの正式展開を完了しました。入力価格を前バージョンから40%削減しながら、100万トークン（1Mトークン）のコンテキストウィンドウ、ネイティブ動画入力、構造化ドキュメント生成...

Official

Anthropicが「Claude Mythos Preview」を限定公開 — ゼロデイ脆弱性を自律発見できる「危険すぎるAI」の実態

Anthropicは5月5日、「Project Glasswing」の一環として、サイバーセキュリティに特化したフロンティアモデル「Claude Mythos Preview」を限定パートナー向けに公開しました。主要OSおよびWebブラウザ...

Community

Google「Gemini 3.1 Ultra」発表——200万トークンコンテキストと94.1% GPQAで長文推論の新基準を打ち立てる

Googleが最新フラッグシップモデル「Gemini 3.1 Ultra」を発表しました。最大の特徴は200万トークンのネイティブコンテキストウィンドウで、テキスト・画像・音声・動画をシームレスに統合処理します。推論ベンチマークのGPQA（...

Community

OpenAI「GPT-5.5」正式リリース — SWE-Bench Proで58.6%、Terminal-Benchで82.7%を達成したエージェント特化型モデル

OpenAIは4月23日、エージェント型タスクに特化した新モデル「GPT-5.5」を正式リリースしました。コーディング性能の指標であるSWE-Bench Proで58.6%、ターミナル操作を評価するTerminal-Bench 2.0で82...

Community

OpenAI、GPT-5.5をリリース——Terminal-Bench 2.0で82.7%を達成、GPT-4.5以来初の完全再トレーニングモデル

OpenAIは2026年4月23日、エージェントワークフロー向けに最適化した新モデル「GPT-5.5」を公開しました。GPT-4.5以来初の完全再トレーニングとなるこのモデルは、複雑なコマンドライン操作を評価するベンチマーク「Termina...

Community

Google、Gemini 3.1 Flash-Liteを正式公開——381トークン/秒・$0.25/Mトークンで「ほぼゼロコスト推論」を実現

Googleが、同社史上最速のプロダクションモデル「Gemini 3.1 Flash-Lite」を正式に一般公開しました。入力トークン単価$0.25/百万トークン（出力は$1.50/百万トークン）という超低コスト価格設定と、381トークン/...

Community

Mistral、コーディングエージェント「Vibe」にリモート非同期機能を追加——バックグラウンドでPRを自動作成、Claude CodeやCodexに本格対抗

Mistral AIが、クラウドベースのコーディングエージェント「Vibe」に非同期リモートエージェント機能を追加しました。2026年4月29日に発表されたアップデートでは、ユーザーがコーディングタスクをクラウド上に「投げっぱなし」にしたま...

Community

Google Gemini 3.1 Ultra公開——200万トークンコンテキストとネイティブマルチモーダル推論で全コードベース一括処理が現実に

Googleは最新フラッグシップモデル「Gemini 3.1 Ultra」を公開しました。最大の特徴は200万（2M）トークンというコンテキストウィンドウで、これは現在公開されているAIモデルの中で最大級です。動画・音声・画像・テキストを同...

Community

Google、Gemini 3.1 Ultraを正式リリース——200万トークンコンテキストとネイティブマルチモーダル推論、Flash-Liteは100万トークン0.25ドル

GoogleがGemini 3.1 Ultraを正式にリリースしました。200万トークンというコンテキストウィンドウは業界最長水準であり、動画・音声・テキストを同時にネイティブで処理するマルチモーダル推論能力を備えています。あわせて、コスト...

Community

Zhipu AI、GLM-4.7をHuaweiアセンドシリコンのみで訓練——幻覚率1.2%を主張、価格はClaude Opusの約136分の1

中国のAI企業Zhipu AIが新モデルGLM-4.7をリリースしました。NVIDIAのGPUを一切使わずHuawei製アセンドシリコンのみで訓練したことを明示し、主要フロンティアラボ中最低の幻覚率（ハルシネーション率）1.2%を達成したと...

Community

OpenAIがGPT-5.5リリース——Terminal-Bench 2.0で82.7%達成、長時間エージェントタスクに特化した新フラッグシップ

OpenAIは4月23日、GPT-5.5およびGPT-5.5 Proをリリースしました。計画立案・ツール活用・意思決定を何時間も継続できる「長期エージェントタスク」向けに最適化されたモデルで、ターミナル操作や自律的なソフトウェア開発を評価す...

Community

Claude Opus 4.6・Sonnet 4.6、100万トークンコンテキストを追加料金なしで一般提供——Googleとの価格差が鮮明に

Anthropicは2026年3月、Claude Opus 4.6とSonnet 4.6の100万トークンコンテキストウィンドウを標準APIで追加料金なしで一般提供（GA）を開始しました。Google Geminiが200Kトークンを超える...

Community

OpenAIがGPT-5.5を正式リリース——エージェント型コーディングとコンピュータ操作で大幅強化、AWS・Google Cloudでも提供開始

OpenAIは2026年4月23日、最新フロンティアモデル「GPT-5.5」を公開しました。エージェント型コーディング・コンピュータ操作・長期的タスク実行において前世代から大きく改善されており、AWSおよびGoogle Cloudでも利用可...

Community

Google「Gemini 3.1 Ultra」、200万トークンコンテキストでテキスト・画像・音声・動画をネイティブ統合処理——Flash-Liteは1Mトークン0.25ドルの低コスト実現

Googleは200万トークンのコンテキストウィンドウを持つ「Gemini 3.1 Ultra」をリリースしました。テキスト・画像・音声・動画を中間変換なしでネイティブに処理できる初の主流商用モデルとして注目されており、軽量版の「Gemin...

Community

OpenAI、GPT-5.5を正式リリース——コーディング・研究・コンピュータ操作の3分野で前モデルを上回るも料金は2倍に

OpenAIは2026年4月24日、最新AI言語モデル「GPT-5.5」を正式リリースしました。コーディング支援・コンピュータ操作・深層研究の3分野で前モデルを明確に上回る性能を示しており、同社が掲げる「AIスーパーアプリ」実現に向けた重要...

Community

xAI、Grok 5を2026年Q2に公開示唆——6兆パラメータのMoEモデル、55万基のBlackwellで訓練完了

Elon Musk率いるxAIが、Grok 5の公開ベータを2026年5月〜6月に実施する計画を示唆しています。MoEアーキテクチャ（Mixture of Experts：複数の専門家モデルを組み合わせる手法）を採用し、総パラメータ数6兆と...

Community

Claude Opus 4.7、リリース直後から「史上最悪」と批判殺到——長文検索精度が78.3%から32.2%に急落、トークン消費は最大1.35倍に増加

Anthropicが2026年4月16日にリリースしたClaude Opus 4.7が、開発者コミュニティから激しい批判を受けています。長文コンテキスト検索の標準ベンチマーク「MRCR（Multi-Range Contextual Retr...

Community

Anthropic、Claude Opus 4.7をリリースも長文脈ベンチマークが78%→32%に急落——「ステルス値上げ」批判も

Anthropicは4月16日にClaude Opus 4.7をリリースしましたが、リリース直後からコミュニティの大きな反発を招いています。長文書脈でのファクト検索能力を測るMRCR（Multi-document Retrieval and...

Community

DeepSeek V4（Flash・Pro）プレビュー公開——1.6兆パラメータのProがGPT-5.5比97%安、SWE-bench 80.6%

DeepSeekは4月24日、大規模言語モデルの新シリーズ「V4」のプレビューを公開しました。フラッグシップの「V4-Pro」は総パラメータ数1.6兆という超大規模MoE（Mixture of Experts：混合エキスパート）アーキテクチ...

Community

OpenAI、GPT-5.5を4月23日にリリース——SWE-bench 88.7%・幻覚60%減もClaudeに7カテゴリ全敗

OpenAIは4月23日、「GPT-5.5」を正式リリースしました。GPT-5.4からわずか6週間での後継モデル投入で、SWE-bench Verifiedで88.7%、MMLUで92.4%を達成し、前世代比で幻覚（ハルシネーション）を60...

Community

DeepSeekが「V4」プレビューを発表——100万トークンコンテキスト対応でオープンモデル最高水準を更新

中国のAI企業DeepSeekが、次世代モデル「DeepSeek V4」のプレビューバージョンを公開しました。V4-ProとV4-Flashの2バリアントを用意し、100万トークンという巨大なコンテキストウィンドウをオープンモデルとして初め...

Community

OpenAIが「GPT-5.5」を3バリアントで正式リリース——SWE-bench 88.7%・幻覚60%削減を達成

OpenAIは最新モデル「GPT-5.5」を正式にリリースしました。標準・Thinking・Proの3バリアント構成で、ソフトウェアエンジニアリングベンチマーク「SWE-bench Verified」で88.7%、ターミナル操作の自律実行を...

Official

Anthropicが「Claude Mythos」を約50社限定でプレビュー提供——ゼロデイ自動悪用能力で一般公開見送り

Anthropicが新世代モデル「Claude Mythos」のプレビューを、Project Glasswinという限定プログラムを通じて約50社のパートナーにのみ提供しています。このモデルはゼロデイ脆弱性（まだ公開・修正されていないセキュ...

Community

Google DeepMindのGemini 3.1がリアルタイム音声・画像解析を統合——GPT-5.4と並びAI総合ランキング1位を獲得

Google DeepMindがGemini 3.1をリリースし、リアルタイムの音声解析と画像解析機能を統合しました。Artificial Analysis Intelligence Indexでは、OpenAIのGPT-5.4と並んで同率...

Community

OpenAIがGPT-5.5を正式リリース——長文脈推論スコアが前モデルの2倍超（74.0%）、ChatGPTスーパーアプリ統合の中核に

OpenAIは4月23日、「GPT-5.5」を正式発表しました。GPT-4.5以来初めてゼロから再訓練されたベースモデルで、100万トークンの長文脈推論ベンチマーク「MRCR v2」において前モデルの36.6%から74.0%へと倍以上のスコ...

Community

DeepSeek V4プレビュー公開——入力100万トークンあたり0.145ドルの超低コストでClaude Opus 4.6超えのコーディング性能を実現

中国のAI企業DeepSeekが、「DeepSeek V4 Flash」および「DeepSeek V4 Pro」の2種類のMoE（混合エキスパート）モデルをオープンソースでプレビュー公開しました。両モデルとも100万トークンのコンテキストウ...

Community

OpenAIがGPT-5.5を発表——1Mトークンコンテキストと Terminal-Bench 2.0で82.7%を達成

OpenAIは2026年4月23日、最新AIモデル「GPT-5.5」を発表しました。100万トークン（約75万語相当）のコンテキストウィンドウを搭載し、AIエージェントのターミナル操作能力を測定するベンチマーク「Terminal-Bench...

Community

DeepSeek V4 Flash/Proプレビュー公開——MITライセンス・1Mトークンでコーディングベンチマーク首位級

中国のAI研究機関DeepSeekは2026年4月24日、新シリーズ「V4 Flash」および「V4 Pro」のプレビューをMITライセンスで公開しました。独自のハイブリッドアテンション機構と100万トークンのコンテキストウィンドウを搭載し...

Community

Meta Llama 4がMoEアーキテクチャを採用——1,000万トークンコンテキストとネイティブマルチモーダルでオープンソース最大級

Metaはオープンソース大規模言語モデルシリーズの最新版「Llama 4」を発表しました。Llama初のMixture-of-Experts（MoE: 混合専門家）アーキテクチャを採用し、旗艦モデル「Scout」は17Bのアクティブパラメー...

Community

DeepSeek V4プレビュー版が公開、コーディングベンチマークで高性能を達成しエージェント機能も大幅強化

中国のAI企業DeepSeekが、新フラグシップモデル「V4 Flash」および「V4 Pro」シリーズのプレビュー版を公開しました。コーディングベンチマークで高い性能を記録したほか、推論能力とエージェント機能においても前世代から大幅な改善...

Community

Meta、Llama 4 Scout・Maverickを公開——1000万トークンのコンテキストウィンドウとMoEアーキテクチャを採用

Metaがオープンウェイトモデルの新世代「Llama 4」シリーズとして「Scout」と「Maverick」の2モデルをリリースしました。LlamaシリーズとしてMoE（Mixture of Experts：専門家の混合）アーキテクチャを初...

Community

OpenAIがGPT-5.5を正式リリース、コーディング・コンピュータ操作・深い調査の3領域で能力を強化

OpenAIは新しい大規模言語モデル「GPT-5.5」を発表し、ChatGPTおよびCodexにおいてPlus・Pro・Business・Enterpriseの各プランのユーザー向けに展開を開始しました。前世代のGPT-5と比較して、コーデ...

Community

Z.aiがGLM-5.1をMITライセンスで公開、SWE-Bench Proで58.4点を記録しGPT-5.4を超える744Bパラメータモデル

中国のZ.ai（旧Zhipu AI）が、744億パラメータを持つ大規模言語モデル「GLM-5.1」をMITライセンスのオープンソースとして公開しました。コーディング能力を評価するベンチマーク「SWE-Bench Pro」において58.4点を...

Community

OpenAI、GPT-5.5（コード名「Spud」）を正式リリース——ChatGPTのPlus/Pro/Businessに展開、APIは後日対応

OpenAIは2026年4月23日、次世代モデル「GPT-5.5」（コード名「Spud」）を正式リリースしたとAxiosおよびTechCrunchが報じています。ChatGPTのPlus・Pro・Business・Enterpriseユーザ...

Community

Google、Gemini 3.1 Pro搭載の「Deep Research」エージェントをAPIで公開——BrowseCompベンチマーク85.9点、前モデル比25点超を達成

GoogleがGemini 3.1 Proをバックエンドに採用した「Deep Research」と「Deep Research Max」の2つのリサーチエージェントをAPIで公開しました。Webおよびプライベートデータの横断検索、ネイティブ...

Community

OpenAI、防衛サイバーセキュリティ特化モデル「GPT-5.4-Cyber」を公開——Anthropic Mythosとのセキュリティ特化AI競争が激化

OpenAIが防御型サイバーセキュリティ用途に特化した新モデル「GPT-5.4-Cyber」を公開しました。Anthropicが自律的なゼロデイ脆弱性発見能力を持つ「Mythos Preview」を公開した数日後のリリースであり、セキュリテ...

Official

AnthropicがGPQA Diamond 94.6%・SWE-bench 93.9%のAI「Claude Mythos」の公開を拒否 — ゼロデイ脆弱性大量発見でサイバーリスクと判断、4月22日にはハッキング被害も

Anthropicは4月7日、史上最高性能のAIモデル「Claude Mythos」を完成させながら、一般公開を見送る異例の決断を下しました。GPQA Diamond 94.6%・SWE-bench Verified 93.9%という圧倒的...

Community

OpenAI、GPT-5.4を3バリアントで正式リリース — コンテキスト105万トークン・個別エラー33%減でGemini 3.1 Ultraとベンチマーク首位を分け合う

OpenAIがGPT-5.4をStandard・Thinking・Proの3バリアントで正式リリースしました。コンテキストウィンドウはOpenAI史上最大となる105万トークンを実現し、個別エラーが前世代比33%減・フルレスポンスエラーが1...

Community

Google「Gemini 3.1 Ultra」正式公開 — GPQA Diamond 94.3%・ARC-AGI-2 77.1%で主要ベンチマークほぼ全制覇、GPT-5.4と並びトップに

Googleがネイティブマルチモーダル推論AIモデル「Gemini 3.1 Ultra」を正式リリースしました。GPQA Diamond（博士レベル科学問題ベンチマーク）で94.3%、ARC-AGI-2（汎用推論ベンチマーク）で77.1%を...

Community

AnthropicがClaude Opus 4.7をリリース — コーディング性能はCursorBench12ポイント向上も、新トークナイザーで最大35%コスト増・Reddit批判投稿が2,300超アップボート

Anthropicが4月16日、「Claude Opus 4.7」を正式リリースしました。エージェント・コーディング用途でのCursorBenchスコアが前世代の4.6比で12ポイント向上し、開発者向け性能の強化が図られています。しかし一般...

Community

MetaがオープンソースLlamaを捨て、初のプロプライエタリAI「Muse Spark」を発表 — MetaAIアプリが前日比87%増でApp Store5位、開発者コミュニティから「裏切り」の声

Metaが4月8日、Meta Superintelligence Labs開発のネイティブマルチモーダル推論モデル「Muse Spark」を発表しました。同社にとって初のプロプライエタリ（非公開ウェイト）AI提供となり、発表翌日にはMeta...

Community

OpenAI Codexが大型刷新 — 自律PC操作・スケジュール実行・90以上のプラグイン対応でエンタープライズ市場へ本格参入

OpenAIは4月16〜21日にかけてCodexのデスクトップアプリを大幅に刷新しました。自律的なコンピューター操作（クリック・タイピング）、ブラウザ内での作業指示、将来タスクの自動スケジューリング、そしてGitLab・Atlassian・...

Community

Claude Opus 4.7リリース48時間で大炎上 — トークン消費35%増・品質低下に2,300超のアップボートが集まる「Legendarily Bad」騒動

Anthropicが4月16日にリリースしたClaude Opus 4.7は、公開からわずか48時間以内にReddit・Discord・Hacker Newsで激しい批判を受けることになりました。トークン消費量が最大35%増加し、コード出力...

Community

MetaがプロプライエタリAI「Muse Spark」を発表 — Llamaオープンソース路線から大転換、株価は当日6.5%急騰

Metaは4月8日、最高AI責任者のAlexandr Wang氏率いるMeta Superintelligence Labsが開発した初のプロプライエタリモデル「Muse Spark」を発表しました。同社がこれまで推進してきたLlamaオー...

Community

Google Gemini 3.1 Ultraリリース：200万トークンコンテキスト・GPQA Diamond 94.3%でGPT-5.4を上回る推論性能

Googleが最新の大規模言語モデル「Gemini 3.1 Ultra」を正式リリースしました。最大200万トークンというコンテキストウィンドウを持つ本モデルは、難易度の高い博士レベル推論ベンチマーク「GPQA Diamond」で94.3%...

Community

Claude Opus 4.7正式リリース：SWE-bench Verified 87.6%・最大2576px高解像度ビジョン・128kトークン出力対応

Anthropicが4月16日にClaude Opus 4.7を正式リリースしました。ソフトウェアエンジニアリングベンチマーク「SWE-bench Verified」で87.6%を達成し、前世代モデルを大幅に上回る性能を示しています。最大2...

Official

AnthropicがClaude Mythos 5を発表：史上初の10兆パラメータモデル、一般公開はなし

Anthropicは、史上初となる10兆パラメータの大規模言語モデル「Claude Mythos 5」を発表しました。サイバーセキュリティや学術研究などの高リスク環境向けに特化して設計されており、既存のフロンティアモデルを大幅に上回る性能を...

Community

Alibaba Qwen 3.6-Plus：SWE-bench 78.8%・100万トークンコンテキストでコーディングベンチマーク5部門首位、Apache 2.0で公開

AlibabaのQwenチームが2026年4月2日に正式公開した「Qwen 3.6-Plus」は、SWE-bench Verified（実際のGitHubイシューをAIが自律修正するベンチマーク）で78.8%のスコアを記録し、LiveCod...

Community

OpenAI、GPT-5 Turboをリリース——テキスト・画像・音声を単一モデルで処理、デスク作業ベンチマーク75.0%達成

OpenAIが「GPT-5 Turbo」をリリースしました。テキスト、画像、音声の生成を一つのモデルがネイティブに処理するマルチモーダル（複数の情報形式を扱える）機能を搭載し、デスクタスクベンチマーク（オフィス業務を模した評価指標）で75....

Community

GPT-6「Spud」、事前学習完了も発表遅延——予測市場で「4月30日リリース」確率が6ポイント下落

コードネーム「Spud（スパッド）」で知られるOpenAIの次世代モデルGPT-6の事前学習が、3月24日に完了したことが明らかになっています。Sam Altman CEOは「数週間以内」のリリースを示唆していましたが、4月14日とされた噂...

Community

GPT-5.4がOSWorld-Verifiedで75.0%達成——前モデルGPT-5.2の47.3%から27ポイント向上、デスクトップ操作AIの実用化が急加速

OpenAIは新モデル「GPT-5.4」を発表し、コンピューター操作タスクを評価するベンチマーク「OSWorld-Verified」において75.0%のスコアを達成しました。前モデルGPT-5.2が記録した47.3%から27.7ポイントの大...

Community

NVIDIAのNemotron 3 Super——Mamba-Attentionハイブリッドで100万トークンコンテキストを競合比2.2倍のスループットで処理

NVIDIAが新モデル「Nemotron 3 Super」を発表しました。総パラメータ数120B（120億×10層相当のMoE構成）でアクティブパラメータは12B、最大100万トークンのコンテキスト長を持ち、MambaとAttentionを...

Community

Claude Opus 4.7がSWE-bench Proで64.3%達成——GPT-5.4の57.7%とGemini 3.1 Proの54.2%を上回り公開最強LLMの座を奪還

Anthropicは4月16日、最新フラッグシップモデル「Claude Opus 4.7」をリリースしました。ソフトウェアエンジニアリング能力を測る業界標準ベンチマーク「SWE-bench Pro」において64.3%のスコアを記録し、GPT...

Community

Gemini 3.1 Pro、主要16ベンチマーク中13で首位——GPT-5.4 Proと同等スコアをコスト3分の1で実現

GoogleのGemini 3.1 Proが、主要ベンチマーク16種中13種で首位を獲得しました。Artificial Analysis Intelligence Indexではライバルに当たるOpenAIのGPT-5.4 Proと同等スコ...

Community

OpenAI、バイナリリバースエンジニアリング対応の「GPT-5.4-Cyber」を発表——Mythos公開から1週間で審査済みセキュリティ機関に限定展開

OpenAIは2026年4月14日、サイバーセキュリティ専門モデル「GPT-5.4-Cyber」を発表しました。AnthropicがClaude Mythosを公表してから1週間というスピードでの対応で、バイナリリバースエンジニアリング（逆...

Community

MetaがHealthBench Hard首位の「Muse Spark」を発表——Alexandr Wang率いる新チームの初作がオープンソース路線を放棄し業界に衝撃

Metaのスーパーインテリジェンスラボが新モデル「Muse Spark」を発表しました。医療AIベンチマーク「HealthBench Hard」でGPT-5.4を上回り1位を獲得するなど高い性能評価を得ている一方、Metaがこれまで掲げてき...

Community

AnthropicがClaude Opus 4.7を正式リリース — SWE-bench 87.6%・GPQA Diamond 94.2%でコーディング性能が13%向上

Anthropicは2026年4月16日、最新フラッグシップモデル「Claude Opus 4.7」を正式リリースしました。ソフトウェアエンジニアリングの実力を測るSWE-bench Verifiedスコアは87.6%、大学院レベルの科学問...

Community

OpenAIが次世代モデル「Spud」の事前学習完了を確認 — Sam Altman氏が「非常に強力」と社内通達、4月リリースに78%の確率

OpenAIが社内コードネーム「Spud」と呼ばれる次世代大規模言語モデルの事前学習を2026年3月24日頃に完了したことが明らかになりました。同社CEOのSam Altman氏は「非常に強力なモデルだ」と社内に通達しており、予測市場Pol...

Community

AnthropicがClaude Mythos Previewを発表、自律的なゼロデイ発見能力で主要11社に限定提供

Anthropicは新フラッグシップモデル「Claude Mythos Preview」を発表し、AWS・Apple・Google・Microsoftなど主要11社に限定プレビュー提供を開始しました。Project Glasswingと名付...

Community

MetaがMuse Sparkを発表、$143億投じた初の独自クローズドモデルでLlamaオープン路線を転換

Metaは初の独自プロプライエタリAIモデル「Muse Spark」を発表しました。Alexandr Wang率いる新組織Meta Superintelligence Labsが開発したネイティブマルチモーダル推論モデルで、Meta AI・...

Community

Google DeepMindがGemini 3.1 Proをリリース、GPQA Diamondで94.3%達成しGPT-5.4を複数指標で上回る

Google DeepMindは最新フラッグシップモデル「Gemini 3.1 Pro」を正式リリースしました。科学・数学の難問集として知られるGPQA Diamond（Graduate-Level Google-Proof Q&A）で94...

Community

Alibaba Qwen 3.6 Plusリリース——100万トークンコンテキスト・速度2〜3倍向上でエンタープライズエージェントAIを加速、ただしクローズドソースに転換

中国のAlibabaが4月2日、最新AIモデル「Qwen 3.6 Plus」をリリースしました。デフォルトで100万トークンのコンテキスト窓を提供し、MCP（Multi-step Capability Planning）Markツール呼び出...

Community

Meta Llama 4リリース——MoEアーキテクチャ・1000万トークンコンテキスト窓を搭載も、コミュニティからベンチマーク操作疑惑と実使用での低性能を指摘

MetaがオープンソースLLMシリーズの最新作「Llama 4」を正式にリリースしました。Scoutモデルは17Bのアクティブパラメーターと109Bの総パラメーターを持ち、Llama初となるMixture-of-Experts（MoE、混合...

Community

MetaがSuperintelligence Labs設立後初の独自クローズドモデル「Muse Spark」を発表——Llamaオープンソース路線からの転換を示唆か

Metaが4月8日、同社のSuperintelligence Labs設立後初となるプロプライエタリ（非公開）AIモデル「Muse Spark」を発表しました。これまでMetaはLlamaシリーズのオープンソース公開を一貫して推進してきまし...

Community

AnthropicがClaude Mythos 5を公開—世界初10兆パラメータで主要OS・ブラウザのゼロデイ脆弱性を数千件発見、一般公開は見送り

Anthropicは4月7日、サイバーセキュリティ特化型の大規模言語モデル「Claude Mythos 5」のプレビューを公開しました。同時に「Project Glasswing（プロジェクト・グラスウィング）」として、AWS・Apple・...

Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%達成—前世代比2倍超の推論力と100万トークンコンテキストを搭載

Google DeepMindは2026年2月19日、最新フラッグシップモデル「Gemini 3.1 Pro」を公開しました。100万トークンのコンテキストウィンドウと、前世代モデルから2倍以上の推論性能向上を実現し、未学習の論理問題を解く...

Community

OpenAI GPT-5.4 Thinkingがデスクトップ操作ベンチマークOSWorldで75.0%達成—人間の72.4%を初めて上回る

OpenAIは3月5日にリリースした「GPT-5.4」の「Thinking（シンキング）」変種が、コンピュータ操作能力を測る業界標準ベンチマーク「OSWorld-Verified」で75.0%のスコアを達成し、人間の熟練者が同テストで記録し...

Community

MetaがMuse Sparkを発表—Alexandr Wang体制で初のフロンティアモデル、LlamaのオープンソースからクローズドAPIに転換し株価5日で約10%上昇

Metaは4月8日、元Scale AI CEOのAlexandr Wang氏が率いる新設「Superintelligence Labs（スーパーインテリジェンス・ラボ）」が開発した初のフロンティアモデル「Muse Spark」を発表しました...

Community

Google Gemini 3.1 Ultra公開 — 200万トークンコンテキスト・ネイティブマルチモーダルでGPQA 94.3%・ARC-AGI-2 77.1%を達成

Googleは4月、最上位モデル「Gemini 3.1 Ultra」を一般公開しました。最大200万トークンのコンテキストウィンドウ（日本語で約600冊分の文庫本に相当）と、テキスト・画像・音声・動画を対等に扱うネイティブマルチモーダルアー...

Community

MetaがAlexandr Wang主導の初モデル「Muse Spark」発表 — 143億ドル投資の成果がLlamaのオープンソース路線から決別

Metaは4月8日、Scale AIの創業者Alexandr Wang氏が率いる「Meta Superintelligence Labs」が開発した初のAIモデル「Muse Spark」を発表しました。GPT-5.4やClaude Sonn...

Community

OpenAI、GPT-5.4とCodexの急成長を公表 — 週間200万ユーザー・3ヶ月で5倍、前月比70%成長を達成

OpenAIは、最新フラッグシップモデル「GPT-5.4」とAIコーディングエージェント「Codex」の最新進捗を公表しました。Codexの週間アクティブユーザー数は200万人を突破し、過去3ヶ月で5倍に成長。月間成長率は70%超に達してお...

Community

Google Gemini 3.1 Proが主要ベンチマーク16中13で首位——GPQA Diamond 94.3%、APIコストはGPT-5.4の約8割でTPU縦統合がコスト優位の源泉

Google DeepMindが2026年2月19日にリリースした「Gemini 3.1 Pro」が、Artificial Analysis Intelligence Indexをはじめとする主要ベンチマーク16項目中13項目で首位を獲得し...

Community

AnthropicがClaude Managed Agentsを発表——エージェントのメモリ・権限・サンドボックスを丸ごと提供、LangChain不要論も

AnthropicはエンタープライズAIエージェントの本番運用を抜本的に簡素化する新製品「Claude Managed Agents」を発表しました。メモリ管理・権限制御・サンドボックス実行環境・エージェントハーネスをまとめてマネージドサー...

Community

Google NotebookLMがGeminiに統合——過去チャットやファイルをノートブックソースとして活用、研究ワークフローが大幅効率化

GoogleはAI研究補助ツール「NotebookLM」をGeminiに直接統合し、Geminiとの過去チャット履歴や関連ファイルをNotebookLMのソースとして活用できる新機能を実装しました。複数のプロジェクトを管理しながら、これまで...

Community

MetaがMuse Sparkを発表——Alexandr Wang率いる新研究所の初モデル、コーディング性能の差を正直に認めつつFacebook・Instagram・WhatsAppへの統合へ

Metaは2026年4月8日、新設した「Meta Superintelligence Labs」の初作となるAIモデル「Muse Spark」を発表しました。同ラボを率いるのは、2025年6月にScale AIのCEOとしてMetaに迎えら...

Community

GPT-5.4 ThinkingがOSWorld-Verifiedで75.0%を達成——人間の72.4%を初めて超え、デスクトップ自律操作でAIが人間レベル越え

OpenAIは2026年3月5日にリリースしたGPT-5.4のThinkingバリアントが、デスクトップ自律操作のベンチマーク「OSWorld-Verified」で75.0%というスコアを記録し、人間専門家の基準値72.4%を初めて上回りま...

Community

MicrosoftがMAI-Transcribe-1・MAI-Voice-1・MAI-Image-2を発表——25言語対応・1秒以内の音声生成でOpenAI依存脱却を鮮明に

Microsoftが2026年4月2日、自社ブランドのAI基盤モデル「MAI」シリーズとして3つの専門モデルをMicrosoft Foundry上でリリースしました。音声認識の「MAI-Transcribe-1」、音声生成の「MAI-Voi...

Community

Google Gemini 3.1 Ultraが200万トークンコンテキストとリアルタイム音声・映像解析を搭載——マルチモーダルAIの最前線が更新

Google DeepMindが「Gemini 3.1 Ultra」をリリースしました。最大の特徴は200万トークンという業界最大クラスのコンテキストウィンドウで、テキスト・画像・音声・動画をネイティブに処理するマルチモーダル設計と、サンド...

Community

GPT-5.4 ThinkingがOSWorldで75.0%——PC自律操作で人間（72.4%）を史上初めて超える

OpenAIが2026年3月5日にリリースしたGPT-5.4 Thinkingが、自律PCタスクのベンチマーク「OSWorld-Verified」で75.0%を達成しました。人間の専門家ベースライン72.4%を上回ったのは、汎用AIモデルと...

Community

OpenAIがGPT-5.4を2バリアントでリリース——ThinkingとProの使い分け、APIで100万トークンコンテキスト提供

OpenAIが3月5日、GPT-5.4 ThinkingとGPT-5.4 Proの2バリアントをリリースしました。いずれもAPIで100万トークンのコンテキストウィンドウを提供し、2026年2〜3月にわたる「AI史上最密な新モデルリリース期...

Community

PrismML、1ビットLLM「Bonsai」を発表 — 8Bモデルが1.15GBに収まり、iPhone上で毎秒130トークンを実現

カリフォルニア工科大学発のAIスタートアップPrismMLが4月4日、モデルの重みを1ビット（{−1, +1}）に完全量子化したLLMファミリー「Bonsai」を発表し、シードラウンドで1625万ドルを調達したことを明らかにしました。8Bパ...

Community

Gemini 3.1 Pro、SWE-bench 80.6%・GPQA Diamond 94.3%でGPT-5.4とClaude Opus 4.6を超え16ベンチマーク中13首位

Googleが2月19日に公開したGemini 3.1 Proが、独立評価機関による16の主要ベンチマーク中13項目でトップスコアを記録し、フロンティアモデルの新基準を打ち立てました。コード生成能力の指標であるSWE-bench Verif...

Community

Claude Opus 4.6がLMSYS Chatbot Arenaで首位獲得——100万トークンコンテキスト・SWE-bench 65.3%で商用最高水準

AnthropicのClaude Opus 4.6が2月5日のリリース後、LMSYS Chatbot Arenaのランキングでトップに立ちました。人間による盲目的な選好評価を集計するChatbot Arenaは、ベンチマーク数値に依存しない...

Community

Claude Sonnet 4.6がGDPval-AA Eloで1,633点・首位獲得——Opus水準の性能をSonnet価格帯で実現

AnthropicのClaude Sonnet 4.6がGDPval-AA（General-Domain Performance Validation）Eloベンチマークで1,633点を記録し、主要モデルの中で首位に立ちました。GDPval...

Community

OpenAIの次世代モデル「Spud」がプレトレーニング完了、Q2 2026リリースへ——GPT-5.5かGPT-6かの命名も焦点に

OpenAIの次世代フラッグシップモデルのコードネーム「Spud」が2026年3月24日にプレトレーニングを完了し、Q2 2026中の公開に向けた最終フェーズに入っています。Sam Altman CEOはX上でリリースまであとわずかであるこ...

Community

Alibabaが「Qwen 3.6-Plus」を発表、デフォルト100万トークンコンテキストとスクリーンショットからのコード生成に対応——初のクローズドソース化で開発者コミュニティに波紋

Alibabaは2026年4月2日、最新LLMシリーズ「Qwen 3.6-Plus」を発表しました。デフォルトで100万トークン（約75万単語相当）のコンテキストウィンドウを搭載し、スクリーンショットやデザイン稿からのコード自動生成に対応す...

Community

AnthropicがClaude Sonnet 5をリリース、SWE-bench 92.4%で前世代から12ポイント向上・価格据え置き

AnthropicはAIモデル「Claude Sonnet 5」（モデル文字列：claude-sonnet-5-20260401）を2026年4月1日にリリースしました。ソフトウェアエンジニアリングの実力を測るSWE-bench Verif...

Community

GPT-5.4が44職種の専門家タスクでGDPVal 83.0%を達成、OpenAIが「知識労働AIの新時代」を宣言

OpenAIは2026年3月5日にフラッグシップモデル「GPT-5.4」を発表しました。米国GDPに貢献する上位9産業・44職種の知識労働タスクを評価するベンチマーク「GDPVal」で83.0%を達成し、前世代のGPT-5.2（70.9%）...

Community

GoogleがGemini 3.1 Ultraをリリース、200万トークンコンテキストとサンドボックス型コード実行をネイティブ統合

Googleは2026年4月、大規模言語モデル「Gemini 3.1 Ultra」をリリースしました。最大200万トークンのコンテキストウィンドウを備え、テキスト・画像・音声・動画をネイティブに処理できます。さらに会話中にコードを実際に書い...

Community

MicrosoftがOpenAI依存脱却を宣言、自社開発のMAI-Transcribe-1・Voice-1・Image-2をAzure Foundryで提供開始

Microsoftが2026年4月2日、自社開発のAIモデルファミリー「MAI」シリーズとして音声認識・音声生成・画像生成の3モデルをMicrosoft Foundryで正式提供開始しました。音声認識モデル「MAI-Transcribe-1...

Community

Anthropicの「Claude Mythos」がサイバーセキュリティパートナーに早期アクセス開始、10兆パラメータ級の「ステップチェンジ」モデル

Anthropicが開発中の最上位モデル「Claude Mythos」（開発コード：Capybara）が、サイバーセキュリティ分野の早期アクセスパートナーへの提供を開始したことが明らかになりました。Fortuneが2026年3月26日に報じ...

Community

OpenAI GPT-5.4 ThinkingがOSWorldで75%・人間の72.4%を超え、デスクトップ操作で人間超えを初めて達成

OpenAIが2026年3月5日にリリースしたGPT-5.4シリーズの全面展開が完了し、「Thinking」バリアントがOSWorld-Verified（デスクトップ操作の自動化能力を測る評価指標）で75.0%のスコアを記録、人間の平均スコ...

Community

Google Gemini 3.1 Flash-Liteが前世代比2.5倍高速・入力1Mトークン$0.25で登場、長文エージェント開発を現実的なコストに

Google DeepMindが2026年3月3日、Gemini 3.1スイートの中で最もコスト効率に優れた「Flash-Lite」モデルをプレビュー公開しました。Google公式ブログによると、同モデルは前世代のGemini 2.5 Fl...

Community

OpenAI GPT-5.4が83%の職種で専門家レベルを達成、ネイティブPC操作機能搭載も国防総省契約で250万人ボイコット

3月5日にリリースされたOpenAIの「GPT-5.4」は、汎用AIモデルとして初めてネイティブなコンピューター操作（computer-use）機能を搭載し、1Mトークンのコンテキストウィンドウにも対応した大型リリースです。GDPValベン...

Official

Claude Sonnet 4.6：30万トークン出力と1Mコンテキストが標準解禁、Opus 4.5を超える評価も—無料プランでデフォルトモデルに

Anthropicが2月17日にリリースした「Claude Sonnet 4.6」が開発者コミュニティで注目を集めています。1Mトークンのコンテキストウィンドウをベータヘッダー不要で標準利用可能にし、Message Batches APIの...

Community

Grok 4.20 Beta：xAIが完全新設計のマルチエージェントアーキテクチャ採用推論モデルをAPIで提供開始、Grok 5はQ2目標に

Elon MuskのxAIが2026年3月10日、新たな推論モデル「Grok 4.20 Beta 0309」をリリースしました。完全新設計のマルチエージェントアーキテクチャを採用しており、単一モデルの性能向上だけでなく複数エージェントが協調...

Community

GPT-5.5（コードネーム「Spud」）の事前学習完了を確認、Q2 2026リリースへ——DeepSeek V4も同時期に控え価格競争が激化の見通し

OpenAIの次世代モデル「GPT-5.5」（内部コードネーム「Spud」）の事前学習が完了したことが確認されました。GPT-5.4が2026年3月5日にリリースされたばかりであることを考えると、わずか数ヶ月でのフォローアップ投入という非常...

Community

AnthropicがOpus超えの新モデル「Claude Mythos」を誤公開、政府に前例のないサイバー攻撃リスクを私的警告

3月26日、AnthropicのCMS（コンテンツ管理システム）の設定ミスにより、非公開モデル「Claude Mythos」の詳細情報が外部に漏洩しました。Fortuneの報道によると、Claude MythosはOpusを超える全く新しい...

Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%を達成——前世代の31.1%から2倍超の改善、16中13ベンチマークで首位

2月19日にリリースされたGoogle DeepMindの「Gemini 3.1 Pro」が、純粋な論理・問題解決能力を測る難関ベンチマーク「ARC-AGI-2」において77.1%のスコアを記録しました。前世代モデルの31.1%から2倍以上...

Community

Alibaba CloudがQwen3.6-Plusをリリース、100万トークンのコンテキストでリポジトリ規模のコーディングに対応

4月2日、Alibaba CloudがエンタープライズAIコーディングエージェント「Qwen3.6-Plus」を正式リリースしました。標準で100万（1M）トークンのコンテキストウィンドウを提供し、フロントエンドの単発コード生成からリポジト...

Community

AnthropicがMessage Batches APIのmax_tokensを30万トークンに拡張 — 長文書類生成やコードタスクの大規模処理が現実に

Anthropicは2026年4月、Claude Opus 4.6およびSonnet 4.6のMessage Batches APIにおけるmax_tokensの上限を従来の大幅に上回る30万トークン（300,000トークン）に引き上げたと...

Community

xAI、Grok 4.20で4専門エージェント並列動作の新アーキテクチャを導入 — ファクトチェック・論理・創造推論を分業化

Elon Musk氏率いるxAIは、最新モデル「Grok 4.20」において4つの専門エージェントが複雑なクエリに並列対応する新アーキテクチャを導入したと発表しました。「調整役のGrok」「ファクトチェック担当のHarper」「論理・コーデ...

Community

GPT-5.4が人類専門家レベルを超えるGDPValベンチマーク83%を達成

OpenAIが「GPT-5.4 Thinking」モデルを発表し、経済的価値のあるタスクで人間の専門家レベル以上の性能を測定する新指標「GDPVal（GDP価値評価）ベンチマーク」で83.0%を達成しました。GPT-5.3 Codexのリリ...

Community

Google、Gemini 3.1 Proを開発者向けプレビュー公開 — ARC-AGI-2で77.1%、100万トークンコンテキストを実現

Googleは2026年4月、最新AIモデル「Gemini 3.1 Pro」の開発者・エンタープライズ向けプレビューを公開しました。100万トークン（約75万〜100万英単語相当）のコンテキストウィンドウを持ち、汎用知能の指標として注目され...

Community

Alibaba、100万トークン対応「Qwen3.6-Plus」をリリース — OpenRouter経由で無料プレビュー、中国モデルがフロンティアに並ぶ

Alibabaは2026年4月初旬、エンタープライズ向けAIモデル「Qwen3.6-Plus」を正式リリースしました。100万トークンのコンテキストウィンドウ、常時オンのChain-of-Thought（思考連鎖）推論、ネイティブ関数呼び出...

Community

OpenAI、GPT-5.4 ThinkingとProを正式リリース — OSWorldで人間専門家72.4%を超える75%を達成

OpenAIは2026年3月5日、新モデル「GPT-5.4」のThinkingおよびPro版を正式にリリースしました。同社によると、デスクトップ操作の総合ベンチマーク「OSWorld」において75%のスコアを達成し、人間の専門家による正解率...

Community

AnthropicのCMS設定ミスで次世代モデル「Claude Mythos（Capybara）」が意図せず公開、政府にサイバーセキュリティリスクを警告

Anthropicの内部コンテンツ管理システム（CMS）の設定ミスにより、約3,000ファイルが一時的に外部公開され、次世代モデル「Claude Mythos」（内部コードネーム：Capybara）の存在が外部に知れ渡りました。Fortun...

Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%を達成、AIエージェントランキング首位に — Flash-Liteは競合の4分の1の価格を実現

Googleは2026年2月19日、「Gemini 3.1 Pro」を正式リリースしました。汎用推論能力の評価指標として注目される「ARC-AGI-2」において77.1%を達成したと発表したほか、AIエージェントの総合性能評価ランキング「A...

Community

Gemini 3.1 ProがARC-AGI-2で77.1%を達成——前世代の2倍超、16ベンチマーク中13項目でClaude・GPTを上回る

Google DeepMindが2月19日にリリースした「Gemini 3.1 Pro」が、AIの汎用的推論能力を測るとされるARC-AGI-2ベンチマークで77.1%を記録しました。前世代のGemini 3 Proの2倍超のスコアを叩き出...

Community

GPT-5.4リリース、GDPValベンチマークで83.0%——人間専門家レベルの経済的タスクをAIがこなせる時代へ

OpenAIが3月、「GPT-5.4」をStandard・Thinking・Pro3の3バリアントで正式リリースしました。なかでもGPT-5.4 Thinkingは、経済的価値のあるタスクへの対応力を測る「GDPVal」ベンチマークで83....

Community

GPT-5.4リリース — 人間超えのOSWorld 75%達成、APIは最大105万トークンのコンテキストウィンドウを提供

OpenAIは2026年3月5日、最新フラッグシップモデル「GPT-5.4」を正式リリースしました。標準・Thinking・Proの3バリアントで提供されており、APIでは最大105万トークンという業界最大級のコンテキストウィンドウに対応し...

Community

NVIDIA、GTC 2026でNemotron 3 Superを発表 — SWE-Bench 60.47%でオープンウェイト最高、GPT-OSSの2.2倍のスループット

NVIDIAはGTC 2026（2026年3月11日）でオープンウェイトモデル「Nemotron 3 Super」を発表しました。1,200億パラメータのハイブリッドMamba-Transformer MoE（混合エキスパート）アーキテクチ...

Community

「Hunter Alpha」の正体はXiaomiの1兆パラメータAI — 開発者帰属なしでOpenRouterに登場し週5,000億トークンを消費した謎のモデル

2026年3月11日、「Hunter Alpha」と名付けられた謎のAIモデルが開発者名不明のままOpenRouterに無料公開されました。ドキュメントも、マーケティングも、所属情報も一切なし。しかしその正体は3月18日に明かされ、スマート...

Community

AnthropicのCMS誤設定で次世代モデルMythosが流出——推論サイバー能力で段階的変化と公式確認

Anthropicは2026年3月下旬、外部CMSツールの設定ミスにより次世代モデル「Claude Mythos（コードネーム：Capybara）」の存在を意図せず公開してしまいました。Fortune誌がこれを報道し、Anthropicは「...

Community

Google Gemini 3 Deep ThinkがARC-AGI-2で84.6%達成——Ultraユーザー向け公開と研究者APIも解放

Googleは2026年2月、推論特化モデル「Gemini 3 Deep Think」の大規模アップグレードをGoogle AI Ultraサブスクライバー向けに正式公開しました。同時に科学者・エンジニア・企業向けのAPIを早期アクセスプロ...

Community

楽天「Rakuten AI 3.0」が日本語ベンチマーク最高スコアを記録——経産省GENIACプロジェクトが国産LLMの新基準を樹立

楽天グループが、経済産業省の「GENIAC（生成AIの高度化・産業化に向けた基礎モデルの開発・普及推進」プロジェクトの支援のもとで開発した大規模言語モデル「Rakuten AI 3.0」を公開しました。同モデルは日本語能力評価の各種ベンチマ...

Community

GoogleがGemini 3.1 Flash-Liteを公開——前世代比2.5倍の速度、入力$0.25/Mトークンという破格の価格でAPI料金戦争が本格化

Googleは2026年3月3日、新モデル「Gemini 3.1 Flash-Lite」をプレビュー公開しました。前世代のGemini 2.5 Flashと比べて処理速度が2.5倍に向上し、入力コストは$0.25/100万トークン、出力コス...

Community

OpenAIがGPT-5.4をリリース、100万トークンの超大型コンテキストとファクトエラー33%削減を実現

OpenAIは2026年3月5日、最新のフラッグシップモデル「GPT-5.4」をリリースしました。同社が「プロフェッショナルワーク向けで最も高性能かつ効率的なフロンティアモデル」と位置づける本モデルは、100万トークンという巨大なコンテキス...

Community

Claude Opus 4.6がFirefox含むOSSで500件以上の高深刻度脆弱性を発見、セキュリティAIの新時代へ

Anthropicが2026年2月5日にリリースした最新AIモデル「Claude Opus 4.6」が、オープンソースソフトウェアのセキュリティ検証において驚異的な成果を上げています。同社によると、テスト期間中にLinuxカーネルやGhos...

Community

Google DeepMindのGemini 3.1 ProがARC-AGI-2で77.1%を達成、抽象推論で他モデルを大きく引き離す

Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。注目すべきは、未知の論理パターンを解く能力を測定するARC-AGI-2ベンチマークで77.1%という驚異的なスコアを記録...

Community

OpenAIがGPT-5.4をリリース、100万トークンのコンテキストウィンドウとネイティブPC操作機能を搭載

OpenAIは3月5日、同社の最新フラッグシップモデル「GPT-5.4」を発表しました。「プロフェッショナルワークのための最も高性能で効率的なフロンティアモデル」と位置づけられた本モデルは、API経由で最大100万トークンのコンテキストウィ...

Community

Anthropicがメモリ機能を無料ユーザーに開放、ChatGPT履歴インポート機能も搭載し乗り換え需要を狙う

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料プラン全ユーザーに開放しました。これまで月額20ドルの有料プランでのみ利用可能だった会話間のコンテキスト保持機能が、無料で使えるようになります。同時に、Chat...

Community

OpenAI GPT-5.4が100万トークン対応＆コンピュータ操作で人間超え、OSWorldで75%達成

OpenAIは2026年3月5日、最新の大規模言語モデル「GPT-5.4」をリリースしました。Standard、Thinking、Proの3バリアント構成で、最大100万トークンのコンテキストウィンドウとネイティブのコンピュータ操作機能を搭...

Community

LTX 2.3発表 - 220億パラメータで4K 50fps動画・音声を同時生成、オープンソースで商用利用可

Lightricksが3月5日、オープンソースの動画生成AI「LTX 2.3」を発表しました。220億パラメータのDiffusion Transformerモデルで、4K解像度・50fpsの動画と音声を同時に生成できる初の本格的なオープンソ...

Community

xAI Grok 4.20が4エージェント並列アーキテクチャを導入、Alpha Arenaで平均12.11%リターン達成

Elon Musk率いるxAIは、最新モデル「Grok 4.20」をベータ版としてリリースしました。従来の単一モデル構成から大きく転換し、4つのAIエージェントが並列で動作する新アーキテクチャを採用しています。株式取引シミュレーション「Al...

Community

OpenAI GPT-5.4「Thinking」発表、100万トークンのコンテキストウィンドウとネイティブPC操作機能を搭載

OpenAIは3月5日、推論最適化モデル「GPT-5.4 Thinking」をリリースしました。100万トークンのコンテキストウィンドウ、ネイティブのコンピュータ操作機能、ツール検索機能を搭載し、API価格は入力100万トークンあたり2.5...

Community

Apple SiriがGoogle Geminiで大刷新へ、1.2兆パラメータモデルをPrivate Cloud Computeで運用

Appleは2026年1月12日、GoogleとのAI分野における複数年にわたる提携を発表し、次世代のApple FoundationモデルがGoogleのGeminiモデルとクラウド技術をベースとすることを明らかにしました。ライバル関係に...

Official

Anthropic Claude Opus 4.6発表、SWE-Bench Verifiedで80.8%を達成しコーディング性能で商用モデル首位に

Anthropicは2月5日、最新フラッグシップモデル「Claude Opus 4.6」をリリースしました。100万トークンのコンテキストウィンドウ（ベータ版）を搭載し、HumanEval+で95%、SWE-Bench Verifiedで8...

Community

Google Gemini 3.1 Pro発表、16ベンチマーク中13で首位獲得しOpusの半額で同等以上の性能を実現

Googleは2月19日、「Gemini 3.1 Pro Preview」をリリースしました。入力100万トークンあたり2ドル、出力12ドルという価格設定で、フロンティアレベルの性能をコモディティ価格で提供しています。これはClaude O...

Community

OpenAI GPT-5.4発表、100万トークンのコンテキストウィンドウとPC直接操作機能を搭載し発売1週間で1日5兆トークン処理を達成

OpenAIは3月5日、推論・コーディング・自律エージェント機能を統合した最新モデル「GPT-5.4 Thinking/Pro」をリリースしました。最大100万トークンのコンテキストウィンドウを備え、発売からわずか1週間で1日あたり5兆トー...

Community

NVIDIA、エンタープライズ向け自律型AIエージェント開発基盤「Agent Toolkit」をGTC 2026で発表

NVIDIAがGTC 2026で、自律型AIエージェント開発のためのオープンソースプラットフォーム「Agent Toolkit」を発表しました。Adobe、Salesforce、SAP、ServiceNowなど17社の大手ソフトウェア企業が...

Community

Anthropic、Claudeのメモリ機能を無料ユーザー全員に開放しChatGPT・Geminiからの移行ツールも提供開始

Anthropicは3月2日、これまで有料プラン限定だったClaudeのメモリ機能を無料ユーザーを含む全員に開放したと発表しました。同時にChatGPTやGeminiからの会話・記憶データをインポートできるツールも提供開始し、競合サービスか...

Community

中国MiniMaxのM2.5が週間1.87兆トークンで5週連続世界トップ、Claude Opus 4.6の1/20のコストで同等性能を実現

中国のAI企業MiniMaxが開発した「M2.5」モデルが、週間1.87兆トークンの呼び出し量で5週連続世界トップを記録しました。230億パラメータながらClaude Opus 4.6の約1/20のコストで、SWE-Benchで80.2%の...

Community

OpenAI、GPT-5.4 Thinkingをリリース — 100万トークン対応でOSWorld人間超えの75%達成

OpenAIが2026年3月5日、新たな基盤モデル「GPT-5.4」を発表しました。最大100万トークンのコンテキストウィンドウを持ち、デスクトップ自動化ベンチマーク「OSWorld」で人間の72.4%を上回る75.0%を達成した初の汎用A...

Community

Anthropic、Claude Opus 4.6を静かにリリース — 100万トークン対応とメモリ機能を無料ユーザーにも開放

Anthropicが2026年2月5日にClaude Opus 4.6をリリースし、3月13日には100万トークンのコンテキストウィンドウを一般提供開始しました。これは約75万語、小説にして10冊分に相当する情報を1回のプロンプトで処理でき...

Community

Google、Gemini 3.1 Proを発表 — GPQA Diamond 94.3%で過去最高スコア、16ベンチマーク中13で首位

Google DeepMindが2026年2月19日、新たなフラッグシップモデル「Gemini 3.1 Pro」をリリースしました。大学院レベルの科学テスト「GPQA Diamond」で94.3%という過去最高スコアを記録し、16種類のベン...

Community

OpenAI GPT-5.4発表、100万トークンコンテキストとネイティブPC操作で「エージェント時代」本格化

OpenAIは3月5日、最新の大規模言語モデル「GPT-5.4」を発表しました。Standard、Thinking、Proの3バリアントで展開され、最大105万トークンという同社史上最大のコンテキストウィンドウと、ネイティブのコンピュータ操...

Community

DeepSeek V3.2がGPT-5超えの推論性能を達成、エージェントファースト設計で1,800以上の環境に対応

中国のAI企業DeepSeekが「DeepSeek-V3.2」をリリースし、高計算バージョン「DeepSeek-V3.2-Speciale」がGPT-5やGemini-3.0-Proを複数の推論ベンチマークで上回りました。特にAIMEでは9...

Community

Xiaomi MiMo-V2-Proが正体判明、「DeepSeek V4」と誤認された1兆パラメータモデルの全貌

3月11日にOpenRouterに登場した謎の1兆パラメータAIモデル「Hunter Alpha」の正体が、XiaomiのAI部門MiMoによる「MiMo-V2-Pro」であることが判明しました。当初、その性能から「DeepSeek V4で...

Community

OpenAI GPT-5.4が100万トークンコンテキストとネイティブPC操作機能を搭載、OSWorldで人間超えの75.0%を達成

OpenAIは3月5日、次世代フラッグシップモデル「GPT-5.4」をリリースしました。100万トークン（約75万語）のコンテキストウィンドウと、ネイティブのコンピュータ操作機能を搭載し、コンピュータ制御ベンチマーク「OSWorld」で人間...

Community

Google Gemini 3.1 ProがARC-AGI-2ベンチマークで77.1%を達成、前世代から2倍以上の推論性能向上

Google DeepMindは2026年2月19日、最新の大規模言語モデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。同モデルはARC-AGI-2ベンチマークで77.1%というスコアを達成し、前世代のGemini...

Community

OpenAI GPT-5.4発表、100万トークンコンテキストとネイティブPC操作で人間超えの75%達成

OpenAIは3月5日、最新基盤モデル「GPT-5.4」を発表しました。API版で100万トークンという史上最大のコンテキストウィンドウを実現し、ネイティブのコンピュータ操作機能を初めて搭載したことで、コンピュータ操作ベンチマーク「OSWo...

Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%を達成、人間の平均スコア60%を大きく上回る

Google DeepMindが2月にリリースしたGemini 3.1 Proが、抽象的推論能力を測定するベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、フロンティアモデルの中でトップの座を獲得しました。 ARC-AGI-...

Community

Google Gemini 3.1 Pro発表、推論性能2倍以上で18ベンチマーク中12で首位を獲得

Google DeepMindは2月、推論能力を大幅に強化した「Gemini 3.1 Pro」を発表しました。新しい論理パターンを解く能力を測るARC-AGI-2ベンチマークで77.1%を達成し、前世代の3 Proから推論性能が2倍以上に向...

Community

Anthropic、Claudeメモリ機能を無料ユーザーに開放し他社AIからの移行ツールも提供

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料ユーザーを含む全ユーザーに開放しました。これまで有料プラン限定だった機能が無料化されたことに加え、ChatGPTやGeminiなど競合サービスからコンテキストを...

Official

Anthropic Claude 4.6シリーズが100万トークンコンテキストを標準価格で提供開始、長文処理のコスト障壁を撤廃

Anthropicは3月14日、Claude Opus 4.6およびSonnet 4.6の100万トークンコンテキストウィンドウを一般提供（GA）開始し、従来の長文プロンプト向け割増料金を撤廃したと発表しました。これまでClaude A...

Community

OpenAI、GPT-5.4を正式リリース — 100万トークンコンテキストとネイティブPC操作機能を搭載、GDPValで83%達成

OpenAIは3月5日、同社の最新フラッグシップモデル「GPT-5.4」を正式にリリースしました。標準版に加え、高性能版の「GPT-5.4 Pro」と推論特化型の「GPT-5.4 Thinking」を同時展開し、知識労働タスクを測定するGD...

Community

Google Gemini 3.1 Flash-Liteが登場：100万トークンあたり0.25ドルで従来比2.5倍の高速応答を実現

Googleが2026年3月3日、コストパフォーマンスを追求した新モデル「Gemini 3.1 Flash-Lite」をプレビュー版として公開しました。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルという低価...

Community

Alibaba Qwen 3.5 Smallシリーズ発表：0.8B〜9Bの4モデルでネイティブマルチモーダル対応、9BはGPT-5-Nanoを上回る性能

Alibaba CloudのQwenチームが2026年3月2日、エッジデバイス向けに最適化された「Qwen 3.5 Small」シリーズを発表しました。0.8B、2B、4B、9Bの4つのDense（密な）モデルで構成され、すべてのモデルがテ...

Community

LTX 2.3発表：220億パラメータで4K 50FPS動画と音声を同時生成、オープンソースで公開

Lightricksが動画生成モデル「LTX 2.3」をApache 2.0ライセンスのオープンソースとして公開しました。220億パラメータを持ち、4K解像度・50FPS・最大20秒の動画と音声を単一のフォワードパスで同時生成できる点が大き...

Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%を達成 — 主要16ベンチマーク中13でトップ、推論性能が2倍以上に

Googleは2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。同モデルは主要16ベンチマーク中13でトップスコアを記録し、特にARC-AGI-2テストでは77.1%という驚異的なスコアを達成...

Community

Anthropic、Claudeのメモリ機能を無料ユーザーにも開放 — ChatGPTからの乗り換えツールも提供、App Storeでトップに

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料ユーザーを含む全ユーザーに開放しました。これまで月額20ドルの有料プランでのみ利用可能だった機能が、無料で使えるようになります。メモリ機能は2025年8月に...

Community

謎のAIモデル「Hunter Alpha」出現 — 1兆パラメータ、100万トークンコンテキストでDeepSeek V4との噂が浮上、正体はXiaomiのMiMo-V2と判明

3月11日、AIモデルAPIプラットフォームOpenRouterに「Hunter Alpha」と名付けられた謎のモデルが無料で公開され、開発者コミュニティを騒然とさせました。1兆パラメータ、100万トークンのコンテキストウィンドウ、推論機能...

Community

OpenAI GPT-5.4正式リリース：105万トークンコンテキストとネイティブPC操作で「ワークフロー所有」時代へ

OpenAIは3月5日、ChatGPT、API、Codexの全プラットフォームでGPT-5.4を正式リリースしました。105万トークンという過去最大のコンテキストウィンドウと、スクリーンショットとキーボード・マウス操作でアプリケーションを直...

Community

Anthropic、Claude全ユーザーにメモリ機能を無料開放：ChatGPTからのインポートツールで競合ユーザー獲得を狙う

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料ユーザーにも開放しました。これまで月額20ドルの有料プラン限定だったこの機能により、すべてのClaudeユーザーが会話の文脈を複数セッションにわたって保持できる...

Community

謎のAIモデル「Hunter Alpha」がOpenRouterに出現：1兆パラメータ・100万トークン、DeepSeek V4か

3月11日、AIモデルプラットフォーム「OpenRouter」に「Hunter Alpha」と名乗る謎のAIモデルが匿名で登場し、開発者コミュニティで大きな話題を呼んでいます。1兆パラメータ、100万トークンのコンテキストウィンドウ、そして...

Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%・GPQA Diamondで94.3%を記録し16ベンチマーク中13で首位

Google DeepMindは2月19日、Gemini 3.1 Proのプレビュー版をリリースしました。同モデルは抽象推論ベンチマーク「ARC-AGI-2」で77.1%を達成し、わずか3ヶ月前のGemini 3 Proの記録を2倍以上上回...

Community

OpenAI GPT-5.4がOSWorldベンチマークで75.0%を達成、人間の基準72.4%を史上初めて突破

OpenAIが3月5日にリリースしたGPT-5.4が、コンピュータ操作能力を測定するOSWorld-Verifiedベンチマークで75.0%のスコアを記録し、人間の基準値である72.4%を史上初めて上回りました。これはAIがデスクトップ環境...

Official

Microsoft 365 CopilotにAnthropic Claude Sonnet統合—マルチモデル時代の幕開けとOpenAI独占からの脱却

MicrosoftがMicrosoft 365 CopilotにAnthropicのClaude Sonnetモデルを直接統合したことが明らかになりました。これは企業向け生産性ツールにおける「マルチモデル時代」の到来を象徴する動きであり、長...

Community

Anthropic、Claudeのメモリ機能を全ユーザーに無料開放—ChatGPT・Geminiからのインポート機能も追加

Anthropicが、これまで有料プラン限定だったClaudeの「メモリ」機能を、無料ユーザーを含む全ユーザーに開放しました。さらに、ChatGPTやGeminiなど競合AIチャットボットからコンテキストをインポートできる新ツールも同時に発...

Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%、GPQA Diamondで94.3%を達成し16ベンチマーク中13項目でトップ

Google DeepMindが2月19日にリリースしたGemini 3.1 Proが、AI業界に大きな衝撃を与えています。抽象的推論能力を測定するARC-AGI-2ベンチマークで77.1%、大学院レベルの科学知識を問うGPQA Diamo...

Community

AnthropicがClaudeのメモリ機能を無料開放、ChatGPTからの乗り換えツールでApp Store首位を獲得

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料プランのユーザーにも開放すると発表しました。同時に、ChatGPTなど他社AIからの会話履歴をインポートできるツールも提供開始し、その結果ClaudeはiOS ...

Community

Zhipu AIがAIエージェント専用設計の「GLM-5 Turbo」を発表、株価16%急騰

中国のAI企業Zhipu AI（Z.ai）は3月16日、AIエージェント専用に設計された大規模言語モデル「GLM-5 Turbo」を発表しました。汎用モデルをエージェント向けに後から調整する他社とは異なり、訓練段階からOpenClawタスク...

Community

OpenAI、GPT-5.4をリリース——OSWorldベンチマークで75%を達成し人間の72.4%を初めて超越

OpenAIは3月5日、最新のフラッグシップモデル「GPT-5.4」をリリースしました。OSWorld-Verifiedベンチマークで75.0%の成功率を達成し、人間の72.4%を初めて上回ったことで、AIがコンピュータ操作タスクにおいて人...

Community

Meta、次世代モデル「Avocado」を5月に延期——内部テストでGoogle・OpenAI・Anthropicに劣後

Metaは次世代AIモデル「Avocado」（内部コードネーム）のリリースを、当初予定の3月中旬から5月以降に延期しました。内部テストで競合他社のモデルに対してパフォーマンスが劣っていることが判明したためです。報道によると、Avocad...

Community

DeepSeek V4、1兆パラメータ・ネイティブマルチモーダルモデルが4月リリースへ延期

中国のAIスタートアップDeepSeekが開発中の次世代モデル「DeepSeek V4」のリリースが遅延しています。当初3月上旬に予定されていたリリースは、中国メディアWhale Labの報道によると4月にずれ込む見通しです。 DeepS...

Community

Claude Sonnet 4.6、100万トークンコンテキストを標準価格で一般提供開始

AnthropicがClaude Sonnet 4.6を2月17日にリリースし、3月13日からは100万トークンのコンテキストウィンドウが追加料金なしで一般提供（GA）となりました。入力100万トークンあたり3ドル、出力100万トークンあた...

Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%達成——主要ベンチマーク16中13でトップに

Googleは2月19日、最新モデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。主要ベンチマーク16項目中13項目でトップスコアを記録し、価格はGemini 3 Proと同等を維持しています。 Gemini 3....

Community

OpenAI GPT-5.4をリリース、100万トークンコンテキストとネイティブPC操作機能で「エージェント型AI」へ進化

OpenAIは2026年3月5日、同社史上最も高性能な汎用モデル「GPT-5.4」を正式リリースしました。100万トークンのコンテキストウィンドウ、ネイティブコンピュータ操作機能、フル解像度ビジョンを1つのモデルに統合し、長期的なタスクの計...

Official

Anthropic Claude Sonnet 4.6が実務ベンチマーク「GDPval-AA」で1,633ポイントを記録、全モデル中トップに

Anthropicは2026年2月中旬にリリースしたClaude Sonnet 4.6が、実務作業の遂行能力を測定するベンチマーク「GDPval-AA」においてELOスコア1,633ポイントを記録し、同社のフラッグシップモデルOpus 4....

Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%を達成、前世代の2倍以上のスコアで論理推論能力が飛躍

Googleは2026年2月19日、Gemini 3.1 Proをプレビュー版としてリリースしました。このモデルは、純粋な論理パターン認識と新規問題解決能力を測定するベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、前世代Ge...

Community

DeepSeek V4がついにリリース、1兆パラメータMoEモデルがコーディング特化で「ClaudeやChatGPTを内部テストで上回る」と報道

中国DeepSeekの「V4」モデルが3月初旬にリリースされました。当初3月初週の公開を予定していましたが若干の延期を経ての登場となります。コーディングと長文コンテキストを活用したソフトウェアエンジニアリングタスクに最適化されており、内部テ...

Community

MiniMax M2.5がSWE-Bench 80.2%を達成、「時給1ドルで100トークン/秒」の驚異的コスト効率で業界に衝撃

上海を拠点とするMiniMaxは2026年2月12日、香港IPOからわずか1ヶ月後に「MiniMax M2.5」をリリースしました。ソフトウェア開発能力を測定するSWE-Bench Verifiedで80.2%を達成し、コーディング、エージ...

Community

OpenAI、GPT-5.4をリリースー 100万トークンコンテキスト・ネイティブコンピュータ操作で「最も有能なフロンティアモデル」

OpenAIは2026年3月5日、同社の最新AIモデル「GPT-5.4」を正式にリリースしました。OpenAIは本モデルを「プロフェッショナルワーク向けの最も有能で効率的なフロンティアモデル」と位置づけており、標準版に加えて推論特化の「GP...

Community

Google、Gemini 3.1 Flash-Liteを発表―入力100万トークン25セント、Proの8分の1価格で大規模ワークロード向け

Googleは3月3日、大規模開発者ワークロード向けに最適化された新モデル「Gemini 3.1 Flash-Lite」をプレビュー版としてリリースしました。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルとい...

Official

Anthropic、Claude Sonnet 4.6をリリースーコンピュータ操作で72.5%達成、開発者の70%が即座に移行

Anthropicは2026年2月17日、最新AIモデル「Claude Sonnet 4.6」をリリースしました。コーディング、コンピュータ操作、長文コンテキスト推論、エージェント計画、ナレッジワーク、デザインなど、あらゆるスキル領域で前モ...

Community

Google、Gemini 3.1 Proをリリースー ARC-AGI-2で77.1%達成、前モデルの2倍以上の推論性能

Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。ARC-AGI-2ベンチマークで77.1%という驚異的なスコアを達成し、Gemini 3 Proの2倍以上の推論性能を実...

Community

DeepSeek V4、リリース間近か - 1兆パラメータMoEモデルも正式発表は延期続く

中国のAI企業DeepSeekが開発中の次世代モデル「DeepSeek V4」のリリースが待たれる中、複数の予定日が過ぎても正式発表には至っていません。当初の2月リリース予定、旧正月後の公開予測、さらに3月初旬の週末リリース予測も、いずれも...

Community

Anthropic Claude Sonnet 4.6発表、100万トークンコンテキストをベータ提供しOpus級性能を5分の1の価格で実現

Anthropicは2026年2月17日、最新モデル「Claude Sonnet 4.6」をリリースしました。コーディング、コンピュータ操作、長文推論、エージェント計画など全面的に強化され、100万トークンのコンテキストウィンドウがベータ版...

Community

Google WorkspaceのGemini統合が大幅強化、Sheetsで複雑タスクの70.48%を成功処理

Googleは2026年3月10日、Docs、Sheets、Slides、DriveへのGemini統合を大幅に強化したと発表しました。特にSheetsでは、実際のスプレッドシート編集タスクを評価するSpreadsheetBenchベンチマ...

Community

OpenAI、GPT-5.4をリリース - 100万トークンコンテキストとネイティブPC操作機能で「エージェントAI」時代を本格化

OpenAIは3月5日、最新のフラッグシップモデル「GPT-5.4」を正式リリースしました。100万トークンのコンテキストウィンドウ、ネイティブなコンピュータ操作機能、そして33%向上した事実性を備え、ChatGPTとAPIの両方で利用可能...

Community

Claude Sonnet 4.6、エージェント性能ベンチマークGDPval-AAで首位に - ELO 1633でOpus超え、ただしトークン消費は4倍増

Anthropicの中位モデル「Claude Sonnet 4.6」が、実世界の知識ワークタスクを評価するGDPval-AAベンチマークでELO 1633を達成し、同社のフラッグシップモデルOpus 4.6やGoogleのGemini 3....

Community

DeepSeek V4発表間近、1兆パラメータのマルチモーダルAI - 一方でセキュリティ懸念から7カ国以上が政府端末での使用を禁止

中国のAI企業DeepSeekが、次世代フラッグシップモデル「DeepSeek V4」の発表を準備中であることが明らかになりました。1兆パラメータ規模で、テキスト、画像、動画、音声を同時に処理できるネイティブマルチモーダルアーキテクチャを採...

Community

OpenAI、GPT-5.4を正式リリース——100万トークンコンテキストとネイティブPC操作で「エージェントAI」時代へ

OpenAIは2026年3月5日、同社の最新フラッグシップモデル「GPT-5.4」を正式リリースしました。100万トークンのコンテキストウィンドウ、ネイティブなコンピュータ操作機能、そしてツール検索による効率化を実現し、従来のチャットボット...

Community

MiniMax M2.5とGrok 4.20が2月にリリース―中国勢がSWE-Bench 80.2%で米国大手に迫る

2026年2月はAIモデルリリースの「ラッシュ月」となり、MiniMax M2.5、xAIのGrok 4.20、ByteDance Seed 2.0など、1か月だけで12の重要なアップデートが発表されました。中でも注目されているのが、中国の...

Community

Google、Gemini 3.1 Proをリリース——ARC-AGI-2で77.1%を達成しGemini 3 Proの2倍以上の推論能力に

Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。16のベンチマーク中13で首位を獲得し、特にARC-AGI-2で77.1%、GPQA Diamondで94.3%という驚...

Community

Anthropic、Claude Sonnet 4.6をリリース——Opus級の性能を5分の1の価格で実現し開発者から高評価

Anthropicは2026年2月17日、Claude Opus 4.6のリリースからわずか12日後に「Claude Sonnet 4.6」を公開しました。Opusに迫る性能をSonnet価格帯で実現し、コストパフォーマンスで業界に衝撃を与...

Community

DeepSeek V4がまもなくリリース——V3.2は価格半減で好評も160秒のレイテンシーと検閲問題が課題

中国のDeepSeekは、次世代モデル「V4」のリリースが間近に迫っています。Financial Timesによると、3月4日から始まる中国の「両会（全国人民代表大会・全国政治協商会議）」に合わせて3月第1週のリリースが予定されていましたが...

Community

OpenAI GPT-5.4がネイティブPC操作と100万トークンを搭載、OSWorldベンチマークで人間超え75%を達成

OpenAIは2026年3月5日、ネイティブコンピュータ操作機能を初めて搭載した汎用AIモデル「GPT-5.4」をリリースしました。APIでは最大100万トークンのコンテキストウィンドウが利用可能となり、OpenAI史上最大の入力長を実現し...

Community

Anthropic Claude Sonnet 4.6リリース、コーディングとエージェント計画能力が大幅強化で開発者の60%がOpus 4.5より高評価

Anthropicは2026年2月17日、Claude Sonnet 4.6をリリースしました。コーディング、コンピュータ操作、長文脈推論、エージェント計画など全方位でアップグレードされ、100万トークンのコンテキストウィンドウがベータ版と...

Community

Google Gemini 3.1 Proが第三者評価で世界最高性能を達成、推論能力は2倍以上に向上

Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。第三者評価機関Artificial Analysisのインテリジェンスインデックスで57点を獲得し、O...

Community

Apple SiriがGoogle Geminiで大幅強化、年間10億ドルの提携でiOS 26.4から提供開始

AppleとGoogleは2026年1月、次世代のApple Foundation ModelsをGoogleのGeminiモデルとクラウド技術を基盤として構築する複数年契約を締結しました。AppleはGoogleに年間約10億ドルを支払い...

Community

GPT-5.4がネイティブコンピュータ操作に対応、OSWorld-Verifiedで人間超えの75%を達成

OpenAIは3月5日、同社史上最も高性能なフロンティアモデル「GPT-5.4」をリリースしました。今回のアップデートの目玉は、ネイティブでのコンピュータ操作機能です。スクリーンショットの認識、マウス・キーボード操作をAPI経由で直接実行で...

Official

Claude Sonnet 4.6発表、エージェントコーディング8.1%・コンピュータ操作11.1%向上でOpus超えの評価

Anthropicは2月17日、Claude Sonnet 4.6を発表しました。前世代のSonnet 4.5から2週間足らずでのリリースとなり、コーディング、コンピュータ操作、長コンテキスト推論、エージェント計画の全領域で性能が向上してい...

Community

Gemini 3.1 ProがARC-AGI-2で77.1%を達成、前世代の2倍以上でフロンティアモデル首位に

Google DeepMindは2月19日、Gemini 3.1 Proを発表しました。最大の注目点は、AIの汎用的推論能力を測るベンチマーク「ARC-AGI-2」で77.1%を達成したことです。これは前世代のGemini 3 Pro（31...

Community

DeepSeek V4発表、1兆パラメータでNvidia排除・Huaweiチップ最適化の中国製マルチモーダルAI

中国のAIスタートアップDeepSeekは、1兆パラメータのマルチモーダルモデル「DeepSeek V4」を3月第1週にリリースする予定です。テキスト、画像、動画を統合的に扱えるネイティブマルチモーダルモデルで、100万トークンのコンテキス...

Community

DeepSeek V4が1兆パラメータで登場へ、SWE-Bench Verifiedで83.7%達成との報告

中国のAI企業DeepSeekが開発中の次期モデル「DeepSeek V4」が、ソフトウェアエンジニアリングベンチマーク「SWE-Bench Verified」で83.7%を達成したとの情報が流出しています。1兆パラメータという巨大なモデル...

Community

NVIDIAが自動運転AI「Alpamayo」をオープンソース公開、100億パラメータで「人間のように考える」推論能力を実現

NVIDIAはCES 2026において、自動運転車向けオープンソースAIモデル群「Alpamayo」を発表しました。業界初となるチェーン・オブ・ソート（連鎖的思考）推論機能を備えたビジョン言語アクション（VLA）モデルで、Mercedes-...

Community

Apple、Gemini搭載の新Siriを3月にiOS 26.4で公開——Googleと複数年契約を締結

AppleがGoogleと複数年にわたるAI分野での提携を正式発表しました。次世代の「Apple Foundation Models」はGoogleのGeminiモデルとクラウド技術をベースとし、新しいSiriは1.2兆パラメータのGemi...

Community

Google Gemini 3.1 Pro、16ベンチマーク中13で首位を獲得―ARC-AGI-2で77.1%、推論能力が前世代の2倍以上に

GoogleのAI研究部門DeepMindは2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。同モデルは主要な16のベンチマークテストのうち13で首位を獲得し、特に抽象的推論や科学的知識を問うテス...

Official

Anthropic Claude Sonnet 4.6、Opus級の性能を1/5の価格で提供―SWE-benchで79.6%達成も文章品質への批判

Anthropicは2月17日、中価格帯AIモデル「Claude Sonnet 4.6」をリリースしました。コーディング能力を測定するSWE-bench Verifiedで79.6%を達成し、前バージョンのSonnet 4.5（77.2%）...

Community

DeepSeek V4、1兆パラメータのマルチモーダルモデルを今週リリース予定―Huaweiチップで訓練、GPT-5の1/50コストを実現か

中国のAIスタートアップDeepSeekが、1兆パラメータ規模のマルチモーダルモデル「V4」を今週中にオープンソースでリリースする見込みです。100万トークンのコンテキストウィンドウを備え、テキスト・画像・動画を統一的に処理できる能力を持つ...

Community

Apple Siri 2.0、GoogleのGemini搭載でiOS 26.4として3月リリース予定―画面認識と複数アクション連携が可能に

Appleは、GoogleのGeminiモデルを搭載した新しいSiri（通称「Siri 2.0」）をiOS 26.4で3月にリリースする予定です。画面に表示されているコンテンツを認識する「オンスクリーン認識」機能や、1回の自然言語リクエスト...

Community

OpenAIがGPT-5.3 Instantをリリース、400Kトークン対応と「クリンジ削減」でChatGPTが大幅に自然な応答へ

OpenAIは3月3日、ChatGPTの新モデル「GPT-5.3 Instant」を全ユーザーに展開しました。コンテキストウィンドウが従来の128Kから400Kトークンへと3倍以上に拡大され、ハルシネーション（幻覚）が26.8%削減されたほ...

Community

Google Gemini 3.1 Proが主要ベンチマーク16中13で首位、ARC-AGI-2で77.1%・GPQA Diamondで過去最高94.3%を記録

Google DeepMindは2月19日、Gemini 3.1 Proをプレビュー公開しました。抽象推論ベンチマーク「ARC-AGI-2」で77.1%を達成し、Claude Opus 4.6の68.8%、GPT-5.2の52.9%を大きく...

Community

xAI「Grok 4.20」が独自の4エージェントアーキテクチャを導入、AIが議論してから回答する新方式でハルシネーション65%削減

xAIは2026年2月17日、独自の4エージェントアーキテクチャを採用した「Grok 4.20（Beta）」を公開しました。4つの専門エージェントが複雑な問題に対して異なる角度から議論を行い、合意形成した上で回答を生成するという新しいマルチ...

Community

AnthropicがClaude Opus 4.6とSonnet 4.6を相次いでリリース、主要AIラボの更新ペースが2〜3週間単位に加速

Anthropicは2月5日にClaude Opus 4.6を、続いて2月17日にClaude Sonnet 4.6をリリースしました。Opus 4.6はエージェントチーム機能とPowerPoint対応を追加し、タスク完了時間のベンチマーク...

Community

Apple、AI搭載の新Siriを3月にiOS 26.4でリリース予定 - LLMベースへ刷新、Gemini連携も

Appleが長年の課題であったSiriの大幅刷新を2026年3月のiOS 26.4で実現する見通しです。従来のルールベースシステムから大規模言語モデル（LLM）ベースのアーキテクチャへと移行し、GoogleのGemini AIとの連携も含ま...

Community

DeepSeek V4が3月初旬リリース予定 - 1兆パラメータ・100万トークンコンテキストで自律コーディングを実現

中国のAI企業DeepSeekが開発する次世代モデル「DeepSeek V4」が、3月初旬にリリース予定であることがFinancial Timesの報道で明らかになりました。1兆パラメータ（アクティブ320億）のMixture of Exp...

Community

GPT-5.3-Codex発表 - 自らのトレーニングをデバッグした史上初の「自己構築型」AIモデル

OpenAIが2月5日、エージェント型コーディングモデルの最新版「GPT-5.3-Codex」を発表しました。自身のトレーニング実行をデバッグし、GPUクラスタのスケーリングを管理するなど、開発プロセスに自ら関与した史上初の「自己構築型」A...

Community

Claude Sonnet 4.6リリース - Opus級の性能を5分の1のコストで実現、SWE-bench 79.6%を達成

Anthropicが新モデル「Claude Sonnet 4.6」をリリースしました。フラッグシップモデルOpus 4.6の97〜99%のコーディング能力を、わずか5分の1のコストで提供するという驚異的なコストパフォーマンスを実現しています...

Community

Google Gemini 3.1 Proが16ベンチマーク中13で首位獲得、GPQA Diamond 94.3%でAI史上最高スコアを記録

Googleは2026年2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。同モデルは主要な16のベンチマークのうち13で首位を獲得し、特にGPQA Diamond（大学院レベルの科学知識テスト）で...

Community

中国テック大手5社が「春節AI戦争」、Alibaba 4.3億ドル・ByteDance高級車プレゼントで消費者争奪戦

午年の春節を迎えた中国で、Alibaba、Tencent、Baidu、ByteDanceなど大手テック企業が「春節AI戦争」と呼ばれる消費者獲得競争を繰り広げています。各社が数億ドル規模のマーケティング予算を投じ、AIチャットボットの普及を...

Community

Apple、1.2兆パラメータのGeminiを搭載した新SiriをiOS 26.4で3月リリース、年間10億ドルでGoogleと提携

AppleがGoogleの1.2兆パラメータAIモデル「Gemini」を搭載した完全刷新版Siriを、2026年3月のiOS 26.4で提供開始することが明らかになりました。Appleは年間約10億ドルをGoogleに支払い、現行のAppl...

Community

中国MiniMaxのM2.5がClaude Opus 4.6に匹敵、コストは20分の1でオープンソース公開

中国・上海のAIスタートアップMiniMaxが、AnthropicのClaude Opus 4.6に匹敵する性能を持つ「M2.5」をオープンソースで公開しました。2026年2月11日にHugging Faceで公開されたこのモデルは、コスト...

Community

ByteDanceの「Seedance 2.0」が映画レベルのAI動画生成を実現、2K解像度でネイティブ音声・リップシンク対応

ByteDanceが2026年2月8日、AI動画生成モデル「Seedance 2.0」を発表しました。最大2K解像度で1回の生成につき最大15秒の映像を出力でき、OpenAIのSoraやKuaishouのKlingを上回る性能と評されていま...

Community

Gemini 3.1 ProがAIME 2025で100%を達成、ARC-AGI-2は77.1%で前世代から2倍以上の推論性能向上

Google DeepMindが2026年2月19日、「Gemini 3.1 Pro」をリリースしました。数学推論ベンチマーク「AIME 2025」でコード実行を併用した際に100%という完璧なスコアを達成し、AI推論能力の新たなマイルスト...

Community

Apple、Gemini搭載の新Siriが信頼性問題に直面、iOS 26.4から一部機能がiOS 26.5・27に延期の見込み

GoogleのGemini AIを搭載した新しいSiriが、内部テストで信頼性の問題に直面していることがBloombergの報道で明らかになりました。当初3月リリース予定のiOS 26.4に含まれるはずだった機能の一部が、iOS 26.5（...

Community

NVIDIAがPhysical AIモデルを発表、Jensen Huang CEOが「ロボティクスのChatGPTの瞬間が来た」と宣言

NVIDIAのJensen Huang CEOがCES 2026の基調講演で「ロボティクスのChatGPTの瞬間が来た」と宣言し、現実世界を理解し、推論し、行動を計画できるPhysical AI（物理AI）モデルを発表しました。ロボットタク...

Community

Google DeepMindがGemini 3.1 Proを発表、ARC-AGI-2ベンチマークで77.1%を達成し推論性能が前世代の2倍以上に

Google DeepMindは2月19日、最新のAIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。新たな推論ベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、前世代のGemini 3 Proの31....

Official

AnthropicがClaude Sonnet 4.6を発表、OSWorldで72.5%を達成し人間レベルのコンピュータ操作能力に到達

Anthropicは2月17日、新たなAIモデル「Claude Sonnet 4.6」をリリースしました。コンピュータ操作能力を測定するOSWorldベンチマークで72.5%を達成し、人間のベースライン性能（約72%）と機能的に同等のレベル...

Community

OpenAIがGPT-5.3-Codexを発表、自らのトレーニングをデバッグした史上初の「自己開発」AIモデル

OpenAIは2月5日、同社史上最も高性能なエージェント型コーディングモデル「GPT-5.3-Codex」を発表しました。このモデルの最大の特徴は、自らの開発に関与した史上初のAIモデルであることです。開発チームは初期バージョンを使用してト...

Community

Inceptionが拡散型LLM「Mercury 2」を発表、毎秒1000トークン生成で従来モデルの5倍以上の速度を実現

AIスタートアップのInceptionは2月24日、世界最速の推論LLMと称する「Mercury 2」を発表しました。拡散ベースの言語モデル（dLLM）というまったく新しいアーキテクチャを採用し、毎秒約1000トークンの出力スループットを達...

Community

Alibaba、Qwen3-Max-Thinkingを発表 - HLEで58.3%達成しGPT-5.2を13ポイント上回る、コストは約10分の1

Alibabaは2026年1月25日、Qwenシリーズのフラッグシップモデル「Qwen3-Max-Thinking」を発表しました。Humanity's Last Exam（HLE）ベンチマークで58.3%を達成し、GPT-5.2やGemi...

Official

Anthropic、金融研究特化のClaude Opus 4.6を発表、GPT-5.2を144 Eloポイント上回る性能

Anthropicが金融研究向けに最適化された新モデル「Claude Opus 4.6」を発表しました。企業データ、規制当局への届出書類、市場情報を分析し、従来は数日を要していた詳細な金融分析を自動化できるのが特徴です。 Bloomber...

Community

Google、Gemini 3.1 Proを発表、ARC-AGI-2で推論性能が2倍以上に向上

Google DeepMindが2026年2月19日、「Gemini 3.1 Pro」をリリースしました。Gemini 3シリーズの次世代モデルとして、複雑なタスク処理能力がさらに強化されています。Claude Opus 4.6、GPT-5...

Community

OpenAI、GPT-5.3-Codexを発表 - SWE-Bench Proで56.8%達成、サイバーセキュリティ分野で初の「高能力」認定

OpenAIは2026年2月5日、同社史上最も高性能なエージェント型コーディングモデル「GPT-5.3-Codex」をリリースしました。SWE-Bench Proで56.8%、Terminal-Bench 2.0で77.3%を達成し、業界最...

Community

Claude Sonnet 5「Fennec」がSWE-Bench Verifiedで82.1%を達成、史上初の80%超え

概要 Anthropicが2月3日にリリースしたClaude Sonnet 5（コードネーム「Fennec」）が、コーディングベンチマークの金字塔であるSWE-Bench Verifiedで82.1%を記録し、初めて80%の壁を突破した。...

Community

Tavus Phoenix-4 がリアルタイム1080p/40fpsでAIアバター生成を実現

概要 Tavusが2月18日にPhoenix-4を発表した。ガウシアン拡散モデルに基づくこの新技術は、感情制御とアクティブリスニング機能を備えた頭肩AIアバターを1080p/40fpsでリアルタイム生成することを可能にし、会話型AI動画の新...

Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%を達成、推論性能が倍増

概要 Googleが2月19日に公開したGemini 3.1 Pro Previewは、純粋な論理・問題解決テストであるARC-AGI-2で77.1%を記録し、前モデルGemini 3 Proの31.1%から2倍以上の推論性能向上を達成し...

Community

Claude Opus 4.6 がエージェントチームとPowerPoint統合、100万トークン対応

概要 Anthropicが2月5日にClaude Opus 4.6をリリースした。Opusクラスモデルとして初の100万トークンコンテキストウィンドウを搭載し、「エージェントチーム」機能とPowerPoint統合を導入。OpenAIのCod...

Community

OpenAI GPT-5.3-Codexをリリース、エージェント型コーディング特化モデル

概要 OpenAIが2月5日にGPT-5.3-Codexを発表した。エージェント型コーディングとソフトウェア開発に特化したこのモデルは、GPT-5.2-Codexより25%高速で、SWE-Bench ProとTerminal-Bench ...

Community

DeepSeek V4が2月中旬リリース予定、中国のAI競争が激化

概要中国のAIスタートアップDeepSeekが、旧正月に合わせてV4のリリースを準備中。1兆パラメータ、100万トークンのコンテキストウィンドウを搭載し、西側競合他社の10〜40分の1の推論コストで80%以上のSWE-bench性能を目...

Official

Anthropic、Claude Opus 4.6をリリース - エージェントチーム機能と100万トークンコンテキストを搭載

概要 Anthropicが2026年2月5日、最新フラッグシップモデル「Claude Opus 4.6」をリリースしました。新機能として「エージェントチーム」、100万トークンのコンテキストウィンドウ（ベータ版）、そしてPowerPoin...

Community

Anthropic「Claude Opus 4.6」発表──100万トークン対応とエージェントチームで知識労働の転換点へ

概要 Anthropicは2026年2月5日（米国時間）、最新フラグシップモデル「Claude Opus 4.6」を発表しました。100万トークンのコンテキストウィンドウ、複数AIエージェントが協調作業を行う「エージェントチーム」機能、そし...

Community

Tavus、Phoenix-4をリリース - リアルタイム感情制御可能な生成ビデオモデル

概要 Tavusが2026年2月18日、リアルタイム人物レンダリングモデル「Phoenix-4」をリリースしました。感情状態の生成・制御、アクティブリスニング行動、連続的な表情変化を統合した初のリアルタイムモデルとして、対話型AIアバター...

Community

OpenAI、GPT-5.3-Codexをリリース - ソフトウェア開発のベンチマークリーダーに

概要 OpenAIが2026年2月5日、最新のコーディング特化モデル「GPT-5.3-Codex」をリリースしました。SWE-Bench Proでトップ性能を達成し、史上初めて「自身の開発に貢献した」AIモデルとして、再帰的自己改善の新時...

Community

OpenAI、GPT-5.3-Codexをリリース──自己開発に貢献した初のAIモデル、ソフトウェア開発の新時代へ

概要 OpenAIは2026年2月5日、ソフトウェア開発に特化したエージェント型コーディングモデル「GPT-5.3-Codex」をリリースしました。SWE-Bench Proでトップ性能を達成し、自身の開発プロセスに貢献した初めてのAIモデ...

Community

Google、Gemini 3.1 Proをリリース - ARC-AGI-2で77.1%を達成し推論性能2倍以上に

概要 Google DeepMindが2026年2月19日、最新モデル「Gemini 3.1 Pro」をリリースしました。ARC-AGI-2ベンチマークで77.1%という驚異的なスコアを達成し、前バージョンの2倍以上の推論性能向上を実現。...

Community

Google「Gemini 3.1 Pro」発表──ARC-AGI-2で77.1%達成、推論性能は前世代の2倍超に

概要 Googleは2026年2月19日、最新モデル「Gemini 3.1 Pro」をプレビュー版として発表しました。AIの真の推論能力を測定するARC-AGI-2ベンチマークで77.1%を達成し、前バージョン（31.1%）から2.5倍以上...

Community

AnthropicがClaude Opus 4.6をリリース、AIランキングで首位獲得

概要 Anthropicが2026年2月5日にリリースしたClaude Opus 4.6が、Artificial Analysisランキングで1位を獲得した。OpenAIのGPT-5.2および前バージョンのClaude Opus 4.5を...

Community

AnthropicがClaude Opus 4.6をリリース、AIランキングで首位獲得

概要 Anthropicは2026年2月5日、フラッグシップモデルClaude Opus 4.6をリリースした。同モデルはArtificial Analysisランキングで1位を獲得し、OpenAIのGPT-5.2およびGoogle Ge...

Community

OpenAIがFrontierプラットフォームを企業向けに提供開始

概要 OpenAIは、AIエージェントを新入社員のように導入・管理できるエンタープライズプラットフォーム「Frontier」を発表した。オンボーディング、権限設定、パフォーマンス評価機能を搭載し、Accenture、BCG、Capgemi...

Community

TavusがPhoenix-4ビデオ生成モデルをリリース

概要 Tavusが2026年2月19日に「Phoenix-4」をリリースしました。ガウシアン拡散ベースのモデルで、1080p・40fpsのリアルタイムアバター生成が可能です。感情制御や能動的傾聴行動に対応し、AIビデオ通話の新時代を切り開...

Community

TavusがPhoenix-4ビデオ生成モデルをリリース

概要 Tavusは、ガウシアン拡散ベースのモデル「Phoenix-4」をリリースした。1080p・40fpsのリアルタイムアバター生成が可能で、感情制御や能動的傾聴行動に対応する、感情的知性を備えた初のリアルタイム人間レンダリングモデルで...