← Home
Model Releases
222 articles
新モデル・アップデート・ベンチマーク
2026-04-27
Google DeepMindがGemini 3.1をリリースし、リアルタイムの音声解析と画像解析機能を統合しました。Artificial Analysis Intelligence Indexでは、OpenAIのGPT-5.4と並んで同率...
OpenAIは4月23日、「GPT-5.5」を正式発表しました。GPT-4.5以来初めてゼロから再訓練されたベースモデルで、100万トークンの長文脈推論ベンチマーク「MRCR v2」において前モデルの36.6%から74.0%へと倍以上のスコ...
中国のAI企業DeepSeekが、「DeepSeek V4 Flash」および「DeepSeek V4 Pro」の2種類のMoE(混合エキスパート)モデルをオープンソースでプレビュー公開しました。両モデルとも100万トークンのコンテキストウ...
2026-04-26
OpenAIは2026年4月23日、最新AIモデル「GPT-5.5」を発表しました。100万トークン(約75万語相当)のコンテキストウィンドウを搭載し、AIエージェントのターミナル操作能力を測定するベンチマーク「Terminal-Bench...
中国のAI研究機関DeepSeekは2026年4月24日、新シリーズ「V4 Flash」および「V4 Pro」のプレビューをMITライセンスで公開しました。独自のハイブリッドアテンション機構と100万トークンのコンテキストウィンドウを搭載し...
Metaはオープンソース大規模言語モデルシリーズの最新版「Llama 4」を発表しました。Llama初のMixture-of-Experts(MoE: 混合専門家)アーキテクチャを採用し、旗艦モデル「Scout」は17Bのアクティブパラメー...
2026-04-25
中国のAI企業DeepSeekが、新フラグシップモデル「V4 Flash」および「V4 Pro」シリーズのプレビュー版を公開しました。コーディングベンチマークで高い性能を記録したほか、推論能力とエージェント機能においても前世代から大幅な改善...
Metaがオープンウェイトモデルの新世代「Llama 4」シリーズとして「Scout」と「Maverick」の2モデルをリリースしました。LlamaシリーズとしてMoE(Mixture of Experts:専門家の混合)アーキテクチャを初...
OpenAIは新しい大規模言語モデル「GPT-5.5」を発表し、ChatGPTおよびCodexにおいてPlus・Pro・Business・Enterpriseの各プランのユーザー向けに展開を開始しました。前世代のGPT-5と比較して、コーデ...
中国のZ.ai(旧Zhipu AI)が、744億パラメータを持つ大規模言語モデル「GLM-5.1」をMITライセンスのオープンソースとして公開しました。コーディング能力を評価するベンチマーク「SWE-Bench Pro」において58.4点を...
2026-04-24
OpenAIは2026年4月23日、次世代モデル「GPT-5.5」(コード名「Spud」)を正式リリースしたとAxiosおよびTechCrunchが報じています。ChatGPTのPlus・Pro・Business・Enterpriseユーザ...
GoogleがGemini 3.1 Proをバックエンドに採用した「Deep Research」と「Deep Research Max」の2つのリサーチエージェントをAPIで公開しました。Webおよびプライベートデータの横断検索、ネイティブ...
OpenAIが防御型サイバーセキュリティ用途に特化した新モデル「GPT-5.4-Cyber」を公開しました。Anthropicが自律的なゼロデイ脆弱性発見能力を持つ「Mythos Preview」を公開した数日後のリリースであり、セキュリテ...
2026-04-23
Anthropicは4月7日、史上最高性能のAIモデル「Claude Mythos」を完成させながら、一般公開を見送る異例の決断を下しました。GPQA Diamond 94.6%・SWE-bench Verified 93.9%という圧倒的...
OpenAIがGPT-5.4をStandard・Thinking・Proの3バリアントで正式リリースしました。コンテキストウィンドウはOpenAI史上最大となる105万トークンを実現し、個別エラーが前世代比33%減・フルレスポンスエラーが1...
Googleがネイティブマルチモーダル推論AIモデル「Gemini 3.1 Ultra」を正式リリースしました。GPQA Diamond(博士レベル科学問題ベンチマーク)で94.3%、ARC-AGI-2(汎用推論ベンチマーク)で77.1%を...
Anthropicが4月16日、「Claude Opus 4.7」を正式リリースしました。エージェント・コーディング用途でのCursorBenchスコアが前世代の4.6比で12ポイント向上し、開発者向け性能の強化が図られています。しかし一般...
Metaが4月8日、Meta Superintelligence Labs開発のネイティブマルチモーダル推論モデル「Muse Spark」を発表しました。同社にとって初のプロプライエタリ(非公開ウェイト)AI提供となり、発表翌日にはMeta...
2026-04-22
OpenAIは4月16〜21日にかけてCodexのデスクトップアプリを大幅に刷新しました。自律的なコンピューター操作(クリック・タイピング)、ブラウザ内での作業指示、将来タスクの自動スケジューリング、そしてGitLab・Atlassian・...
Anthropicが4月16日にリリースしたClaude Opus 4.7は、公開からわずか48時間以内にReddit・Discord・Hacker Newsで激しい批判を受けることになりました。トークン消費量が最大35%増加し、コード出力...
Metaは4月8日、最高AI責任者のAlexandr Wang氏率いるMeta Superintelligence Labsが開発した初のプロプライエタリモデル「Muse Spark」を発表しました。同社がこれまで推進してきたLlamaオー...
2026-04-21
Googleが最新の大規模言語モデル「Gemini 3.1 Ultra」を正式リリースしました。最大200万トークンというコンテキストウィンドウを持つ本モデルは、難易度の高い博士レベル推論ベンチマーク「GPQA Diamond」で94.3%...
Anthropicが4月16日にClaude Opus 4.7を正式リリースしました。ソフトウェアエンジニアリングベンチマーク「SWE-bench Verified」で87.6%を達成し、前世代モデルを大幅に上回る性能を示しています。最大2...
2026-04-20
Anthropicは、史上初となる10兆パラメータの大規模言語モデル「Claude Mythos 5」を発表しました。サイバーセキュリティや学術研究などの高リスク環境向けに特化して設計されており、既存のフロンティアモデルを大幅に上回る性能を...
AlibabaのQwenチームが2026年4月2日に正式公開した「Qwen 3.6-Plus」は、SWE-bench Verified(実際のGitHubイシューをAIが自律修正するベンチマーク)で78.8%のスコアを記録し、LiveCod...
OpenAIが「GPT-5 Turbo」をリリースしました。テキスト、画像、音声の生成を一つのモデルがネイティブに処理するマルチモーダル(複数の情報形式を扱える)機能を搭載し、デスクタスクベンチマーク(オフィス業務を模した評価指標)で75....
コードネーム「Spud(スパッド)」で知られるOpenAIの次世代モデルGPT-6の事前学習が、3月24日に完了したことが明らかになっています。Sam Altman CEOは「数週間以内」のリリースを示唆していましたが、4月14日とされた噂...
2026-04-19
OpenAIは新モデル「GPT-5.4」を発表し、コンピューター操作タスクを評価するベンチマーク「OSWorld-Verified」において75.0%のスコアを達成しました。前モデルGPT-5.2が記録した47.3%から27.7ポイントの大...
NVIDIAが新モデル「Nemotron 3 Super」を発表しました。総パラメータ数120B(120億×10層相当のMoE構成)でアクティブパラメータは12B、最大100万トークンのコンテキスト長を持ち、MambaとAttentionを...
Anthropicは4月16日、最新フラッグシップモデル「Claude Opus 4.7」をリリースしました。ソフトウェアエンジニアリング能力を測る業界標準ベンチマーク「SWE-bench Pro」において64.3%のスコアを記録し、GPT...
2026-04-18
GoogleのGemini 3.1 Proが、主要ベンチマーク16種中13種で首位を獲得しました。Artificial Analysis Intelligence Indexではライバルに当たるOpenAIのGPT-5.4 Proと同等スコ...
OpenAIは2026年4月14日、サイバーセキュリティ専門モデル「GPT-5.4-Cyber」を発表しました。AnthropicがClaude Mythosを公表してから1週間というスピードでの対応で、バイナリリバースエンジニアリング(逆...
Metaのスーパーインテリジェンスラボが新モデル「Muse Spark」を発表しました。医療AIベンチマーク「HealthBench Hard」でGPT-5.4を上回り1位を獲得するなど高い性能評価を得ている一方、Metaがこれまで掲げてき...
2026-04-17
Anthropicは2026年4月16日、最新フラッグシップモデル「Claude Opus 4.7」を正式リリースしました。ソフトウェアエンジニアリングの実力を測るSWE-bench Verifiedスコアは87.6%、大学院レベルの科学問...
OpenAIが社内コードネーム「Spud」と呼ばれる次世代大規模言語モデルの事前学習を2026年3月24日頃に完了したことが明らかになりました。同社CEOのSam Altman氏は「非常に強力なモデルだ」と社内に通達しており、予測市場Pol...
2026-04-16
Anthropicは新フラッグシップモデル「Claude Mythos Preview」を発表し、AWS・Apple・Google・Microsoftなど主要11社に限定プレビュー提供を開始しました。Project Glasswingと名付...
Metaは初の独自プロプライエタリAIモデル「Muse Spark」を発表しました。Alexandr Wang率いる新組織Meta Superintelligence Labsが開発したネイティブマルチモーダル推論モデルで、Meta AI・...
Google DeepMindは最新フラッグシップモデル「Gemini 3.1 Pro」を正式リリースしました。科学・数学の難問集として知られるGPQA Diamond(Graduate-Level Google-Proof Q&A)で94...
2026-04-15
中国のAlibabaが4月2日、最新AIモデル「Qwen 3.6 Plus」をリリースしました。デフォルトで100万トークンのコンテキスト窓を提供し、MCP(Multi-step Capability Planning)Markツール呼び出...
MetaがオープンソースLLMシリーズの最新作「Llama 4」を正式にリリースしました。Scoutモデルは17Bのアクティブパラメーターと109Bの総パラメーターを持ち、Llama初となるMixture-of-Experts(MoE、混合...
Metaが4月8日、同社のSuperintelligence Labs設立後初となるプロプライエタリ(非公開)AIモデル「Muse Spark」を発表しました。これまでMetaはLlamaシリーズのオープンソース公開を一貫して推進してきまし...
2026-04-13
Anthropicは4月7日、サイバーセキュリティ特化型の大規模言語モデル「Claude Mythos 5」のプレビューを公開しました。同時に「Project Glasswing(プロジェクト・グラスウィング)」として、AWS・Apple・...
Google DeepMindは2026年2月19日、最新フラッグシップモデル「Gemini 3.1 Pro」を公開しました。100万トークンのコンテキストウィンドウと、前世代モデルから2倍以上の推論性能向上を実現し、未学習の論理問題を解く...
OpenAIは3月5日にリリースした「GPT-5.4」の「Thinking(シンキング)」変種が、コンピュータ操作能力を測る業界標準ベンチマーク「OSWorld-Verified」で75.0%のスコアを達成し、人間の熟練者が同テストで記録し...
Metaは4月8日、元Scale AI CEOのAlexandr Wang氏が率いる新設「Superintelligence Labs(スーパーインテリジェンス・ラボ)」が開発した初のフロンティアモデル「Muse Spark」を発表しました...
2026-04-12
Googleは4月、最上位モデル「Gemini 3.1 Ultra」を一般公開しました。最大200万トークンのコンテキストウィンドウ(日本語で約600冊分の文庫本に相当)と、テキスト・画像・音声・動画を対等に扱うネイティブマルチモーダルアー...
Metaは4月8日、Scale AIの創業者Alexandr Wang氏が率いる「Meta Superintelligence Labs」が開発した初のAIモデル「Muse Spark」を発表しました。GPT-5.4やClaude Sonn...
OpenAIは、最新フラッグシップモデル「GPT-5.4」とAIコーディングエージェント「Codex」の最新進捗を公表しました。Codexの週間アクティブユーザー数は200万人を突破し、過去3ヶ月で5倍に成長。月間成長率は70%超に達してお...
2026-04-10
Google DeepMindが2026年2月19日にリリースした「Gemini 3.1 Pro」が、Artificial Analysis Intelligence Indexをはじめとする主要ベンチマーク16項目中13項目で首位を獲得し...
AnthropicはエンタープライズAIエージェントの本番運用を抜本的に簡素化する新製品「Claude Managed Agents」を発表しました。メモリ管理・権限制御・サンドボックス実行環境・エージェントハーネスをまとめてマネージドサー...
GoogleはAI研究補助ツール「NotebookLM」をGeminiに直接統合し、Geminiとの過去チャット履歴や関連ファイルをNotebookLMのソースとして活用できる新機能を実装しました。複数のプロジェクトを管理しながら、これまで...
Metaは2026年4月8日、新設した「Meta Superintelligence Labs」の初作となるAIモデル「Muse Spark」を発表しました。同ラボを率いるのは、2025年6月にScale AIのCEOとしてMetaに迎えら...
OpenAIは2026年3月5日にリリースしたGPT-5.4のThinkingバリアントが、デスクトップ自律操作のベンチマーク「OSWorld-Verified」で75.0%というスコアを記録し、人間専門家の基準値72.4%を初めて上回りま...
2026-04-09
Microsoftが2026年4月2日、自社ブランドのAI基盤モデル「MAI」シリーズとして3つの専門モデルをMicrosoft Foundry上でリリースしました。音声認識の「MAI-Transcribe-1」、音声生成の「MAI-Voi...
Google DeepMindが「Gemini 3.1 Ultra」をリリースしました。最大の特徴は200万トークンという業界最大クラスのコンテキストウィンドウで、テキスト・画像・音声・動画をネイティブに処理するマルチモーダル設計と、サンド...
OpenAIが2026年3月5日にリリースしたGPT-5.4 Thinkingが、自律PCタスクのベンチマーク「OSWorld-Verified」で75.0%を達成しました。人間の専門家ベースライン72.4%を上回ったのは、汎用AIモデルと...
2026-04-08
OpenAIが3月5日、GPT-5.4 ThinkingとGPT-5.4 Proの2バリアントをリリースしました。いずれもAPIで100万トークンのコンテキストウィンドウを提供し、2026年2〜3月にわたる「AI史上最密な新モデルリリース期...
カリフォルニア工科大学発のAIスタートアップPrismMLが4月4日、モデルの重みを1ビット({−1, +1})に完全量子化したLLMファミリー「Bonsai」を発表し、シードラウンドで1625万ドルを調達したことを明らかにしました。8Bパ...
Googleが2月19日に公開したGemini 3.1 Proが、独立評価機関による16の主要ベンチマーク中13項目でトップスコアを記録し、フロンティアモデルの新基準を打ち立てました。コード生成能力の指標であるSWE-bench Verif...
AnthropicのClaude Opus 4.6が2月5日のリリース後、LMSYS Chatbot Arenaのランキングでトップに立ちました。人間による盲目的な選好評価を集計するChatbot Arenaは、ベンチマーク数値に依存しない...
2026-04-07
AnthropicのClaude Sonnet 4.6がGDPval-AA(General-Domain Performance Validation)Eloベンチマークで1,633点を記録し、主要モデルの中で首位に立ちました。GDPval...
OpenAIの次世代フラッグシップモデルのコードネーム「Spud」が2026年3月24日にプレトレーニングを完了し、Q2 2026中の公開に向けた最終フェーズに入っています。Sam Altman CEOはX上でリリースまであとわずかであるこ...
Alibabaは2026年4月2日、最新LLMシリーズ「Qwen 3.6-Plus」を発表しました。デフォルトで100万トークン(約75万単語相当)のコンテキストウィンドウを搭載し、スクリーンショットやデザイン稿からのコード自動生成に対応す...
2026-04-06
AnthropicはAIモデル「Claude Sonnet 5」(モデル文字列:claude-sonnet-5-20260401)を2026年4月1日にリリースしました。ソフトウェアエンジニアリングの実力を測るSWE-bench Verif...
OpenAIは2026年3月5日にフラッグシップモデル「GPT-5.4」を発表しました。米国GDPに貢献する上位9産業・44職種の知識労働タスクを評価するベンチマーク「GDPVal」で83.0%を達成し、前世代のGPT-5.2(70.9%)...
Googleは2026年4月、大規模言語モデル「Gemini 3.1 Ultra」をリリースしました。最大200万トークンのコンテキストウィンドウを備え、テキスト・画像・音声・動画をネイティブに処理できます。さらに会話中にコードを実際に書い...
2026-04-05
Microsoftが2026年4月2日、自社開発のAIモデルファミリー「MAI」シリーズとして音声認識・音声生成・画像生成の3モデルをMicrosoft Foundryで正式提供開始しました。音声認識モデル「MAI-Transcribe-1...
Anthropicが開発中の最上位モデル「Claude Mythos」(開発コード:Capybara)が、サイバーセキュリティ分野の早期アクセスパートナーへの提供を開始したことが明らかになりました。Fortuneが2026年3月26日に報じ...
OpenAIが2026年3月5日にリリースしたGPT-5.4シリーズの全面展開が完了し、「Thinking」バリアントがOSWorld-Verified(デスクトップ操作の自動化能力を測る評価指標)で75.0%のスコアを記録、人間の平均スコ...
Google DeepMindが2026年3月3日、Gemini 3.1スイートの中で最もコスト効率に優れた「Flash-Lite」モデルをプレビュー公開しました。Google公式ブログによると、同モデルは前世代のGemini 2.5 Fl...
2026-04-04
3月5日にリリースされたOpenAIの「GPT-5.4」は、汎用AIモデルとして初めてネイティブなコンピューター操作(computer-use)機能を搭載し、1Mトークンのコンテキストウィンドウにも対応した大型リリースです。GDPValベン...
Anthropicが2月17日にリリースした「Claude Sonnet 4.6」が開発者コミュニティで注目を集めています。1Mトークンのコンテキストウィンドウをベータヘッダー不要で標準利用可能にし、Message Batches APIの...
Elon MuskのxAIが2026年3月10日、新たな推論モデル「Grok 4.20 Beta 0309」をリリースしました。完全新設計のマルチエージェントアーキテクチャを採用しており、単一モデルの性能向上だけでなく複数エージェントが協調...
OpenAIの次世代モデル「GPT-5.5」(内部コードネーム「Spud」)の事前学習が完了したことが確認されました。GPT-5.4が2026年3月5日にリリースされたばかりであることを考えると、わずか数ヶ月でのフォローアップ投入という非常...
3月26日、AnthropicのCMS(コンテンツ管理システム)の設定ミスにより、非公開モデル「Claude Mythos」の詳細情報が外部に漏洩しました。Fortuneの報道によると、Claude MythosはOpusを超える全く新しい...
2月19日にリリースされたGoogle DeepMindの「Gemini 3.1 Pro」が、純粋な論理・問題解決能力を測る難関ベンチマーク「ARC-AGI-2」において77.1%のスコアを記録しました。前世代モデルの31.1%から2倍以上...
4月2日、Alibaba CloudがエンタープライズAIコーディングエージェント「Qwen3.6-Plus」を正式リリースしました。標準で100万(1M)トークンのコンテキストウィンドウを提供し、フロントエンドの単発コード生成からリポジト...
2026-04-03
Anthropicは2026年4月、Claude Opus 4.6およびSonnet 4.6のMessage Batches APIにおけるmax_tokensの上限を従来の大幅に上回る30万トークン(300,000トークン)に引き上げたと...
Elon Musk氏率いるxAIは、最新モデル「Grok 4.20」において4つの専門エージェントが複雑なクエリに並列対応する新アーキテクチャを導入したと発表しました。「調整役のGrok」「ファクトチェック担当のHarper」「論理・コーデ...
OpenAIが「GPT-5.4 Thinking」モデルを発表し、経済的価値のあるタスクで人間の専門家レベル以上の性能を測定する新指標「GDPVal(GDP価値評価)ベンチマーク」で83.0%を達成しました。GPT-5.3 Codexのリリ...
Googleは2026年4月、最新AIモデル「Gemini 3.1 Pro」の開発者・エンタープライズ向けプレビューを公開しました。100万トークン(約75万〜100万英単語相当)のコンテキストウィンドウを持ち、汎用知能の指標として注目され...
Alibabaは2026年4月初旬、エンタープライズ向けAIモデル「Qwen3.6-Plus」を正式リリースしました。100万トークンのコンテキストウィンドウ、常時オンのChain-of-Thought(思考連鎖)推論、ネイティブ関数呼び出...
2026-04-02
OpenAIは2026年3月5日、新モデル「GPT-5.4」のThinkingおよびPro版を正式にリリースしました。同社によると、デスクトップ操作の総合ベンチマーク「OSWorld」において75%のスコアを達成し、人間の専門家による正解率...
Anthropicの内部コンテンツ管理システム(CMS)の設定ミスにより、約3,000ファイルが一時的に外部公開され、次世代モデル「Claude Mythos」(内部コードネーム:Capybara)の存在が外部に知れ渡りました。Fortun...
Googleは2026年2月19日、「Gemini 3.1 Pro」を正式リリースしました。汎用推論能力の評価指標として注目される「ARC-AGI-2」において77.1%を達成したと発表したほか、AIエージェントの総合性能評価ランキング「A...
2026-04-01
Google DeepMindが2月19日にリリースした「Gemini 3.1 Pro」が、AIの汎用的推論能力を測るとされるARC-AGI-2ベンチマークで77.1%を記録しました。前世代のGemini 3 Proの2倍超のスコアを叩き出...
OpenAIが3月、「GPT-5.4」をStandard・Thinking・Pro3の3バリアントで正式リリースしました。なかでもGPT-5.4 Thinkingは、経済的価値のあるタスクへの対応力を測る「GDPVal」ベンチマークで83....
2026-03-31
OpenAIは2026年3月5日、最新フラッグシップモデル「GPT-5.4」を正式リリースしました。標準・Thinking・Proの3バリアントで提供されており、APIでは最大105万トークンという業界最大級のコンテキストウィンドウに対応し...
NVIDIAはGTC 2026(2026年3月11日)でオープンウェイトモデル「Nemotron 3 Super」を発表しました。1,200億パラメータのハイブリッドMamba-Transformer MoE(混合エキスパート)アーキテクチ...
2026年3月11日、「Hunter Alpha」と名付けられた謎のAIモデルが開発者名不明のままOpenRouterに無料公開されました。ドキュメントも、マーケティングも、所属情報も一切なし。しかしその正体は3月18日に明かされ、スマート...
2026-03-30
Anthropicは2026年3月下旬、外部CMSツールの設定ミスにより次世代モデル「Claude Mythos(コードネーム:Capybara)」の存在を意図せず公開してしまいました。Fortune誌がこれを報道し、Anthropicは「...
Googleは2026年2月、推論特化モデル「Gemini 3 Deep Think」の大規模アップグレードをGoogle AI Ultraサブスクライバー向けに正式公開しました。同時に科学者・エンジニア・企業向けのAPIを早期アクセスプロ...
楽天グループが、経済産業省の「GENIAC(生成AIの高度化・産業化に向けた基礎モデルの開発・普及推進」プロジェクトの支援のもとで開発した大規模言語モデル「Rakuten AI 3.0」を公開しました。同モデルは日本語能力評価の各種ベンチマ...
Googleは2026年3月3日、新モデル「Gemini 3.1 Flash-Lite」をプレビュー公開しました。前世代のGemini 2.5 Flashと比べて処理速度が2.5倍に向上し、入力コストは$0.25/100万トークン、出力コス...
2026-03-29
OpenAIは2026年3月5日、最新のフラッグシップモデル「GPT-5.4」をリリースしました。同社が「プロフェッショナルワーク向けで最も高性能かつ効率的なフロンティアモデル」と位置づける本モデルは、100万トークンという巨大なコンテキス...
Anthropicが2026年2月5日にリリースした最新AIモデル「Claude Opus 4.6」が、オープンソースソフトウェアのセキュリティ検証において驚異的な成果を上げています。同社によると、テスト期間中にLinuxカーネルやGhos...
Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。注目すべきは、未知の論理パターンを解く能力を測定するARC-AGI-2ベンチマークで77.1%という驚異的なスコアを記録...
2026-03-28
OpenAIは3月5日、同社の最新フラッグシップモデル「GPT-5.4」を発表しました。「プロフェッショナルワークのための最も高性能で効率的なフロンティアモデル」と位置づけられた本モデルは、API経由で最大100万トークンのコンテキストウィ...
Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料プラン全ユーザーに開放しました。これまで月額20ドルの有料プランでのみ利用可能だった会話間のコンテキスト保持機能が、無料で使えるようになります。同時に、Chat...
2026-03-27
OpenAIは2026年3月5日、最新の大規模言語モデル「GPT-5.4」をリリースしました。Standard、Thinking、Proの3バリアント構成で、最大100万トークンのコンテキストウィンドウとネイティブのコンピュータ操作機能を搭...
Lightricksが3月5日、オープンソースの動画生成AI「LTX 2.3」を発表しました。220億パラメータのDiffusion Transformerモデルで、4K解像度・50fpsの動画と音声を同時に生成できる初の本格的なオープンソ...
Elon Musk率いるxAIは、最新モデル「Grok 4.20」をベータ版としてリリースしました。従来の単一モデル構成から大きく転換し、4つのAIエージェントが並列で動作する新アーキテクチャを採用しています。株式取引シミュレーション「Al...
2026-03-26
OpenAIは3月5日、推論最適化モデル「GPT-5.4 Thinking」をリリースしました。100万トークンのコンテキストウィンドウ、ネイティブのコンピュータ操作機能、ツール検索機能を搭載し、API価格は入力100万トークンあたり2.5...
Appleは2026年1月12日、GoogleとのAI分野における複数年にわたる提携を発表し、次世代のApple FoundationモデルがGoogleのGeminiモデルとクラウド技術をベースとすることを明らかにしました。ライバル関係に...
Anthropicは2月5日、最新フラッグシップモデル「Claude Opus 4.6」をリリースしました。100万トークンのコンテキストウィンドウ(ベータ版)を搭載し、HumanEval+で95%、SWE-Bench Verifiedで8...
Googleは2月19日、「Gemini 3.1 Pro Preview」をリリースしました。入力100万トークンあたり2ドル、出力12ドルという価格設定で、フロンティアレベルの性能をコモディティ価格で提供しています。これはClaude O...
2026-03-25
OpenAIは3月5日、推論・コーディング・自律エージェント機能を統合した最新モデル「GPT-5.4 Thinking/Pro」をリリースしました。最大100万トークンのコンテキストウィンドウを備え、発売からわずか1週間で1日あたり5兆トー...
NVIDIAがGTC 2026で、自律型AIエージェント開発のためのオープンソースプラットフォーム「Agent Toolkit」を発表しました。Adobe、Salesforce、SAP、ServiceNowなど17社の大手ソフトウェア企業が...
Anthropicは3月2日、これまで有料プラン限定だったClaudeのメモリ機能を無料ユーザーを含む全員に開放したと発表しました。同時にChatGPTやGeminiからの会話・記憶データをインポートできるツールも提供開始し、競合サービスか...
中国のAI企業MiniMaxが開発した「M2.5」モデルが、週間1.87兆トークンの呼び出し量で5週連続世界トップを記録しました。230億パラメータながらClaude Opus 4.6の約1/20のコストで、SWE-Benchで80.2%の...
2026-03-24
OpenAIが2026年3月5日、新たな基盤モデル「GPT-5.4」を発表しました。最大100万トークンのコンテキストウィンドウを持ち、デスクトップ自動化ベンチマーク「OSWorld」で人間の72.4%を上回る75.0%を達成した初の汎用A...
Anthropicが2026年2月5日にClaude Opus 4.6をリリースし、3月13日には100万トークンのコンテキストウィンドウを一般提供開始しました。これは約75万語、小説にして10冊分に相当する情報を1回のプロンプトで処理でき...
Google DeepMindが2026年2月19日、新たなフラッグシップモデル「Gemini 3.1 Pro」をリリースしました。大学院レベルの科学テスト「GPQA Diamond」で94.3%という過去最高スコアを記録し、16種類のベン...
2026-03-23
OpenAIは3月5日、最新の大規模言語モデル「GPT-5.4」を発表しました。Standard、Thinking、Proの3バリアントで展開され、最大105万トークンという同社史上最大のコンテキストウィンドウと、ネイティブのコンピュータ操...
中国のAI企業DeepSeekが「DeepSeek-V3.2」をリリースし、高計算バージョン「DeepSeek-V3.2-Speciale」がGPT-5やGemini-3.0-Proを複数の推論ベンチマークで上回りました。特にAIMEでは9...
3月11日にOpenRouterに登場した謎の1兆パラメータAIモデル「Hunter Alpha」の正体が、XiaomiのAI部門MiMoによる「MiMo-V2-Pro」であることが判明しました。当初、その性能から「DeepSeek V4で...
2026-03-22
OpenAIは3月5日、次世代フラッグシップモデル「GPT-5.4」をリリースしました。100万トークン(約75万語)のコンテキストウィンドウと、ネイティブのコンピュータ操作機能を搭載し、コンピュータ制御ベンチマーク「OSWorld」で人間...
Google DeepMindは2026年2月19日、最新の大規模言語モデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。同モデルはARC-AGI-2ベンチマークで77.1%というスコアを達成し、前世代のGemini...
2026-03-21
OpenAIは3月5日、最新基盤モデル「GPT-5.4」を発表しました。API版で100万トークンという史上最大のコンテキストウィンドウを実現し、ネイティブのコンピュータ操作機能を初めて搭載したことで、コンピュータ操作ベンチマーク「OSWo...
Google DeepMindが2月にリリースしたGemini 3.1 Proが、抽象的推論能力を測定するベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、フロンティアモデルの中でトップの座を獲得しました。
ARC-AGI-...
Google DeepMindは2月、推論能力を大幅に強化した「Gemini 3.1 Pro」を発表しました。新しい論理パターンを解く能力を測るARC-AGI-2ベンチマークで77.1%を達成し、前世代の3 Proから推論性能が2倍以上に向...
Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料ユーザーを含む全ユーザーに開放しました。これまで有料プラン限定だった機能が無料化されたことに加え、ChatGPTやGeminiなど競合サービスからコンテキストを...
Anthropicは3月14日、Claude Opus 4.6およびSonnet 4.6の100万トークンコンテキストウィンドウを一般提供(GA)開始し、従来の長文プロンプト向け割増料金を撤廃したと発表しました。
これまでClaude A...
2026-03-20
OpenAIは3月5日、同社の最新フラッグシップモデル「GPT-5.4」を正式にリリースしました。標準版に加え、高性能版の「GPT-5.4 Pro」と推論特化型の「GPT-5.4 Thinking」を同時展開し、知識労働タスクを測定するGD...
Googleが2026年3月3日、コストパフォーマンスを追求した新モデル「Gemini 3.1 Flash-Lite」をプレビュー版として公開しました。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルという低価...
Alibaba CloudのQwenチームが2026年3月2日、エッジデバイス向けに最適化された「Qwen 3.5 Small」シリーズを発表しました。0.8B、2B、4B、9Bの4つのDense(密な)モデルで構成され、すべてのモデルがテ...
Lightricksが動画生成モデル「LTX 2.3」をApache 2.0ライセンスのオープンソースとして公開しました。220億パラメータを持ち、4K解像度・50FPS・最大20秒の動画と音声を単一のフォワードパスで同時生成できる点が大き...
Googleは2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。同モデルは主要16ベンチマーク中13でトップスコアを記録し、特にARC-AGI-2テストでは77.1%という驚異的なスコアを達成...
Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料ユーザーを含む全ユーザーに開放しました。これまで月額20ドルの有料プランでのみ利用可能だった機能が、無料で使えるようになります。
メモリ機能は2025年8月に...
3月11日、AIモデルAPIプラットフォームOpenRouterに「Hunter Alpha」と名付けられた謎のモデルが無料で公開され、開発者コミュニティを騒然とさせました。1兆パラメータ、100万トークンのコンテキストウィンドウ、推論機能...
2026-03-19
OpenAIは3月5日、ChatGPT、API、Codexの全プラットフォームでGPT-5.4を正式リリースしました。105万トークンという過去最大のコンテキストウィンドウと、スクリーンショットとキーボード・マウス操作でアプリケーションを直...
Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料ユーザーにも開放しました。これまで月額20ドルの有料プラン限定だったこの機能により、すべてのClaudeユーザーが会話の文脈を複数セッションにわたって保持できる...
3月11日、AIモデルプラットフォーム「OpenRouter」に「Hunter Alpha」と名乗る謎のAIモデルが匿名で登場し、開発者コミュニティで大きな話題を呼んでいます。1兆パラメータ、100万トークンのコンテキストウィンドウ、そして...
Google DeepMindは2月19日、Gemini 3.1 Proのプレビュー版をリリースしました。同モデルは抽象推論ベンチマーク「ARC-AGI-2」で77.1%を達成し、わずか3ヶ月前のGemini 3 Proの記録を2倍以上上回...
2026-03-18
OpenAIが3月5日にリリースしたGPT-5.4が、コンピュータ操作能力を測定するOSWorld-Verifiedベンチマークで75.0%のスコアを記録し、人間の基準値である72.4%を史上初めて上回りました。これはAIがデスクトップ環境...
MicrosoftがMicrosoft 365 CopilotにAnthropicのClaude Sonnetモデルを直接統合したことが明らかになりました。これは企業向け生産性ツールにおける「マルチモデル時代」の到来を象徴する動きであり、長...
Anthropicが、これまで有料プラン限定だったClaudeの「メモリ」機能を、無料ユーザーを含む全ユーザーに開放しました。さらに、ChatGPTやGeminiなど競合AIチャットボットからコンテキストをインポートできる新ツールも同時に発...
Google DeepMindが2月19日にリリースしたGemini 3.1 Proが、AI業界に大きな衝撃を与えています。抽象的推論能力を測定するARC-AGI-2ベンチマークで77.1%、大学院レベルの科学知識を問うGPQA Diamo...
Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料プランのユーザーにも開放すると発表しました。同時に、ChatGPTなど他社AIからの会話履歴をインポートできるツールも提供開始し、その結果ClaudeはiOS ...
中国のAI企業Zhipu AI(Z.ai)は3月16日、AIエージェント専用に設計された大規模言語モデル「GLM-5 Turbo」を発表しました。汎用モデルをエージェント向けに後から調整する他社とは異なり、訓練段階からOpenClawタスク...
2026-03-17
OpenAIは3月5日、最新のフラッグシップモデル「GPT-5.4」をリリースしました。OSWorld-Verifiedベンチマークで75.0%の成功率を達成し、人間の72.4%を初めて上回ったことで、AIがコンピュータ操作タスクにおいて人...
Metaは次世代AIモデル「Avocado」(内部コードネーム)のリリースを、当初予定の3月中旬から5月以降に延期しました。内部テストで競合他社のモデルに対してパフォーマンスが劣っていることが判明したためです。
報道によると、Avocad...
中国のAIスタートアップDeepSeekが開発中の次世代モデル「DeepSeek V4」のリリースが遅延しています。当初3月上旬に予定されていたリリースは、中国メディアWhale Labの報道によると4月にずれ込む見通しです。
DeepS...
AnthropicがClaude Sonnet 4.6を2月17日にリリースし、3月13日からは100万トークンのコンテキストウィンドウが追加料金なしで一般提供(GA)となりました。入力100万トークンあたり3ドル、出力100万トークンあた...
Googleは2月19日、最新モデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。主要ベンチマーク16項目中13項目でトップスコアを記録し、価格はGemini 3 Proと同等を維持しています。
Gemini 3....
2026-03-13
OpenAIは2026年3月5日、同社史上最も高性能な汎用モデル「GPT-5.4」を正式リリースしました。100万トークンのコンテキストウィンドウ、ネイティブコンピュータ操作機能、フル解像度ビジョンを1つのモデルに統合し、長期的なタスクの計...
Anthropicは2026年2月中旬にリリースしたClaude Sonnet 4.6が、実務作業の遂行能力を測定するベンチマーク「GDPval-AA」においてELOスコア1,633ポイントを記録し、同社のフラッグシップモデルOpus 4....
Googleは2026年2月19日、Gemini 3.1 Proをプレビュー版としてリリースしました。このモデルは、純粋な論理パターン認識と新規問題解決能力を測定するベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、前世代Ge...
中国DeepSeekの「V4」モデルが3月初旬にリリースされました。当初3月初週の公開を予定していましたが若干の延期を経ての登場となります。コーディングと長文コンテキストを活用したソフトウェアエンジニアリングタスクに最適化されており、内部テ...
上海を拠点とするMiniMaxは2026年2月12日、香港IPOからわずか1ヶ月後に「MiniMax M2.5」をリリースしました。ソフトウェア開発能力を測定するSWE-Bench Verifiedで80.2%を達成し、コーディング、エージ...
2026-03-12
OpenAIは2026年3月5日、同社の最新AIモデル「GPT-5.4」を正式にリリースしました。OpenAIは本モデルを「プロフェッショナルワーク向けの最も有能で効率的なフロンティアモデル」と位置づけており、標準版に加えて推論特化の「GP...
Googleは3月3日、大規模開発者ワークロード向けに最適化された新モデル「Gemini 3.1 Flash-Lite」をプレビュー版としてリリースしました。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルとい...
Anthropicは2026年2月17日、最新AIモデル「Claude Sonnet 4.6」をリリースしました。コーディング、コンピュータ操作、長文コンテキスト推論、エージェント計画、ナレッジワーク、デザインなど、あらゆるスキル領域で前モ...
Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。ARC-AGI-2ベンチマークで77.1%という驚異的なスコアを達成し、Gemini 3 Proの2倍以上の推論性能を実...
中国のAI企業DeepSeekが開発中の次世代モデル「DeepSeek V4」のリリースが待たれる中、複数の予定日が過ぎても正式発表には至っていません。当初の2月リリース予定、旧正月後の公開予測、さらに3月初旬の週末リリース予測も、いずれも...
2026-03-11
Anthropicは2026年2月17日、最新モデル「Claude Sonnet 4.6」をリリースしました。コーディング、コンピュータ操作、長文推論、エージェント計画など全面的に強化され、100万トークンのコンテキストウィンドウがベータ版...
Googleは2026年3月10日、Docs、Sheets、Slides、DriveへのGemini統合を大幅に強化したと発表しました。特にSheetsでは、実際のスプレッドシート編集タスクを評価するSpreadsheetBenchベンチマ...
OpenAIは3月5日、最新のフラッグシップモデル「GPT-5.4」を正式リリースしました。100万トークンのコンテキストウィンドウ、ネイティブなコンピュータ操作機能、そして33%向上した事実性を備え、ChatGPTとAPIの両方で利用可能...
Anthropicの中位モデル「Claude Sonnet 4.6」が、実世界の知識ワークタスクを評価するGDPval-AAベンチマークでELO 1633を達成し、同社のフラッグシップモデルOpus 4.6やGoogleのGemini 3....
中国のAI企業DeepSeekが、次世代フラッグシップモデル「DeepSeek V4」の発表を準備中であることが明らかになりました。1兆パラメータ規模で、テキスト、画像、動画、音声を同時に処理できるネイティブマルチモーダルアーキテクチャを採...
2026-03-10
OpenAIは2026年3月5日、同社の最新フラッグシップモデル「GPT-5.4」を正式リリースしました。100万トークンのコンテキストウィンドウ、ネイティブなコンピュータ操作機能、そしてツール検索による効率化を実現し、従来のチャットボット...
2026年2月はAIモデルリリースの「ラッシュ月」となり、MiniMax M2.5、xAIのGrok 4.20、ByteDance Seed 2.0など、1か月だけで12の重要なアップデートが発表されました。中でも注目されているのが、中国の...
Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。16のベンチマーク中13で首位を獲得し、特にARC-AGI-2で77.1%、GPQA Diamondで94.3%という驚...
Anthropicは2026年2月17日、Claude Opus 4.6のリリースからわずか12日後に「Claude Sonnet 4.6」を公開しました。Opusに迫る性能をSonnet価格帯で実現し、コストパフォーマンスで業界に衝撃を与...
中国のDeepSeekは、次世代モデル「V4」のリリースが間近に迫っています。Financial Timesによると、3月4日から始まる中国の「両会(全国人民代表大会・全国政治協商会議)」に合わせて3月第1週のリリースが予定されていましたが...
2026-03-09
OpenAIは2026年3月5日、ネイティブコンピュータ操作機能を初めて搭載した汎用AIモデル「GPT-5.4」をリリースしました。APIでは最大100万トークンのコンテキストウィンドウが利用可能となり、OpenAI史上最大の入力長を実現し...
Anthropicは2026年2月17日、Claude Sonnet 4.6をリリースしました。コーディング、コンピュータ操作、長文脈推論、エージェント計画など全方位でアップグレードされ、100万トークンのコンテキストウィンドウがベータ版と...
Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。第三者評価機関Artificial Analysisのインテリジェンスインデックスで57点を獲得し、O...
AppleとGoogleは2026年1月、次世代のApple Foundation ModelsをGoogleのGeminiモデルとクラウド技術を基盤として構築する複数年契約を締結しました。AppleはGoogleに年間約10億ドルを支払い...
2026-03-08
OpenAIは3月5日、同社史上最も高性能なフロンティアモデル「GPT-5.4」をリリースしました。今回のアップデートの目玉は、ネイティブでのコンピュータ操作機能です。スクリーンショットの認識、マウス・キーボード操作をAPI経由で直接実行で...
Anthropicは2月17日、Claude Sonnet 4.6を発表しました。前世代のSonnet 4.5から2週間足らずでのリリースとなり、コーディング、コンピュータ操作、長コンテキスト推論、エージェント計画の全領域で性能が向上してい...
Google DeepMindは2月19日、Gemini 3.1 Proを発表しました。最大の注目点は、AIの汎用的推論能力を測るベンチマーク「ARC-AGI-2」で77.1%を達成したことです。これは前世代のGemini 3 Pro(31...
中国のAIスタートアップDeepSeekは、1兆パラメータのマルチモーダルモデル「DeepSeek V4」を3月第1週にリリースする予定です。テキスト、画像、動画を統合的に扱えるネイティブマルチモーダルモデルで、100万トークンのコンテキス...
2026-03-07
中国のAI企業DeepSeekが開発中の次期モデル「DeepSeek V4」が、ソフトウェアエンジニアリングベンチマーク「SWE-Bench Verified」で83.7%を達成したとの情報が流出しています。1兆パラメータという巨大なモデル...
NVIDIAはCES 2026において、自動運転車向けオープンソースAIモデル群「Alpamayo」を発表しました。業界初となるチェーン・オブ・ソート(連鎖的思考)推論機能を備えたビジョン言語アクション(VLA)モデルで、Mercedes-...
AppleがGoogleと複数年にわたるAI分野での提携を正式発表しました。次世代の「Apple Foundation Models」はGoogleのGeminiモデルとクラウド技術をベースとし、新しいSiriは1.2兆パラメータのGemi...
2026-03-06
GoogleのAI研究部門DeepMindは2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。同モデルは主要な16のベンチマークテストのうち13で首位を獲得し、特に抽象的推論や科学的知識を問うテス...
Anthropicは2月17日、中価格帯AIモデル「Claude Sonnet 4.6」をリリースしました。コーディング能力を測定するSWE-bench Verifiedで79.6%を達成し、前バージョンのSonnet 4.5(77.2%)...
中国のAIスタートアップDeepSeekが、1兆パラメータ規模のマルチモーダルモデル「V4」を今週中にオープンソースでリリースする見込みです。100万トークンのコンテキストウィンドウを備え、テキスト・画像・動画を統一的に処理できる能力を持つ...
Appleは、GoogleのGeminiモデルを搭載した新しいSiri(通称「Siri 2.0」)をiOS 26.4で3月にリリースする予定です。画面に表示されているコンテンツを認識する「オンスクリーン認識」機能や、1回の自然言語リクエスト...
2026-03-05
OpenAIは3月3日、ChatGPTの新モデル「GPT-5.3 Instant」を全ユーザーに展開しました。コンテキストウィンドウが従来の128Kから400Kトークンへと3倍以上に拡大され、ハルシネーション(幻覚)が26.8%削減されたほ...
Google DeepMindは2月19日、Gemini 3.1 Proをプレビュー公開しました。抽象推論ベンチマーク「ARC-AGI-2」で77.1%を達成し、Claude Opus 4.6の68.8%、GPT-5.2の52.9%を大きく...
xAIは2026年2月17日、独自の4エージェントアーキテクチャを採用した「Grok 4.20(Beta)」を公開しました。4つの専門エージェントが複雑な問題に対して異なる角度から議論を行い、合意形成した上で回答を生成するという新しいマルチ...
Anthropicは2月5日にClaude Opus 4.6を、続いて2月17日にClaude Sonnet 4.6をリリースしました。Opus 4.6はエージェントチーム機能とPowerPoint対応を追加し、タスク完了時間のベンチマーク...
2026-03-04
Appleが長年の課題であったSiriの大幅刷新を2026年3月のiOS 26.4で実現する見通しです。従来のルールベースシステムから大規模言語モデル(LLM)ベースのアーキテクチャへと移行し、GoogleのGemini AIとの連携も含ま...
中国のAI企業DeepSeekが開発する次世代モデル「DeepSeek V4」が、3月初旬にリリース予定であることがFinancial Timesの報道で明らかになりました。1兆パラメータ(アクティブ320億)のMixture of Exp...
OpenAIが2月5日、エージェント型コーディングモデルの最新版「GPT-5.3-Codex」を発表しました。自身のトレーニング実行をデバッグし、GPUクラスタのスケーリングを管理するなど、開発プロセスに自ら関与した史上初の「自己構築型」A...
Anthropicが新モデル「Claude Sonnet 4.6」をリリースしました。フラッグシップモデルOpus 4.6の97〜99%のコーディング能力を、わずか5分の1のコストで提供するという驚異的なコストパフォーマンスを実現しています...
Googleは2026年2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。同モデルは主要な16のベンチマークのうち13で首位を獲得し、特にGPQA Diamond(大学院レベルの科学知識テスト)で...
2026-03-03
午年の春節を迎えた中国で、Alibaba、Tencent、Baidu、ByteDanceなど大手テック企業が「春節AI戦争」と呼ばれる消費者獲得競争を繰り広げています。各社が数億ドル規模のマーケティング予算を投じ、AIチャットボットの普及を...
AppleがGoogleの1.2兆パラメータAIモデル「Gemini」を搭載した完全刷新版Siriを、2026年3月のiOS 26.4で提供開始することが明らかになりました。Appleは年間約10億ドルをGoogleに支払い、現行のAppl...
中国・上海のAIスタートアップMiniMaxが、AnthropicのClaude Opus 4.6に匹敵する性能を持つ「M2.5」をオープンソースで公開しました。2026年2月11日にHugging Faceで公開されたこのモデルは、コスト...
ByteDanceが2026年2月8日、AI動画生成モデル「Seedance 2.0」を発表しました。最大2K解像度で1回の生成につき最大15秒の映像を出力でき、OpenAIのSoraやKuaishouのKlingを上回る性能と評されていま...
Google DeepMindが2026年2月19日、「Gemini 3.1 Pro」をリリースしました。数学推論ベンチマーク「AIME 2025」でコード実行を併用した際に100%という完璧なスコアを達成し、AI推論能力の新たなマイルスト...
2026-03-02
GoogleのGemini AIを搭載した新しいSiriが、内部テストで信頼性の問題に直面していることがBloombergの報道で明らかになりました。当初3月リリース予定のiOS 26.4に含まれるはずだった機能の一部が、iOS 26.5(...
2026-03-01
NVIDIAのJensen Huang CEOがCES 2026の基調講演で「ロボティクスのChatGPTの瞬間が来た」と宣言し、現実世界を理解し、推論し、行動を計画できるPhysical AI(物理AI)モデルを発表しました。ロボットタク...
Google DeepMindは2月19日、最新のAIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。新たな推論ベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、前世代のGemini 3 Proの31....
Anthropicは2月17日、新たなAIモデル「Claude Sonnet 4.6」をリリースしました。コンピュータ操作能力を測定するOSWorldベンチマークで72.5%を達成し、人間のベースライン性能(約72%)と機能的に同等のレベル...
OpenAIは2月5日、同社史上最も高性能なエージェント型コーディングモデル「GPT-5.3-Codex」を発表しました。このモデルの最大の特徴は、自らの開発に関与した史上初のAIモデルであることです。開発チームは初期バージョンを使用してト...
AIスタートアップのInceptionは2月24日、世界最速の推論LLMと称する「Mercury 2」を発表しました。拡散ベースの言語モデル(dLLM)というまったく新しいアーキテクチャを採用し、毎秒約1000トークンの出力スループットを達...
2026-02-28
Alibabaは2026年1月25日、Qwenシリーズのフラッグシップモデル「Qwen3-Max-Thinking」を発表しました。Humanity's Last Exam(HLE)ベンチマークで58.3%を達成し、GPT-5.2やGemi...
Anthropicが金融研究向けに最適化された新モデル「Claude Opus 4.6」を発表しました。企業データ、規制当局への届出書類、市場情報を分析し、従来は数日を要していた詳細な金融分析を自動化できるのが特徴です。
Bloomber...
Google DeepMindが2026年2月19日、「Gemini 3.1 Pro」をリリースしました。Gemini 3シリーズの次世代モデルとして、複雑なタスク処理能力がさらに強化されています。Claude Opus 4.6、GPT-5...
OpenAIは2026年2月5日、同社史上最も高性能なエージェント型コーディングモデル「GPT-5.3-Codex」をリリースしました。SWE-Bench Proで56.8%、Terminal-Bench 2.0で77.3%を達成し、業界最...
2026-02-27
概要
Anthropicが2月3日にリリースしたClaude Sonnet 5(コードネーム「Fennec」)が、コーディングベンチマークの金字塔であるSWE-Bench Verifiedで82.1%を記録し、初めて80%の壁を突破した。...
概要
Tavusが2月18日にPhoenix-4を発表した。ガウシアン拡散モデルに基づくこの新技術は、感情制御とアクティブリスニング機能を備えた頭肩AIアバターを1080p/40fpsでリアルタイム生成することを可能にし、会話型AI動画の新...
概要
Googleが2月19日に公開したGemini 3.1 Pro Previewは、純粋な論理・問題解決テストであるARC-AGI-2で77.1%を記録し、前モデルGemini 3 Proの31.1%から2倍以上の推論性能向上を達成し...
概要
Anthropicが2月5日にClaude Opus 4.6をリリースした。Opusクラスモデルとして初の100万トークンコンテキストウィンドウを搭載し、「エージェントチーム」機能とPowerPoint統合を導入。OpenAIのCod...
概要
OpenAIが2月5日にGPT-5.3-Codexを発表した。エージェント型コーディングとソフトウェア開発に特化したこのモデルは、GPT-5.2-Codexより25%高速で、SWE-Bench ProとTerminal-Bench ...
概要
中国のAIスタートアップDeepSeekが、旧正月に合わせてV4のリリースを準備中。1兆パラメータ、100万トークンのコンテキストウィンドウを搭載し、西側競合他社の10〜40分の1の推論コストで80%以上のSWE-bench性能を目...
2026-02-26
概要
Anthropicが2026年2月5日、最新フラッグシップモデル「Claude Opus 4.6」をリリースしました。新機能として「エージェントチーム」、100万トークンのコンテキストウィンドウ(ベータ版)、そしてPowerPoin...
概要
Anthropicは2026年2月5日(米国時間)、最新フラグシップモデル「Claude Opus 4.6」を発表しました。100万トークンのコンテキストウィンドウ、複数AIエージェントが協調作業を行う「エージェントチーム」機能、そし...
概要
Tavusが2026年2月18日、リアルタイム人物レンダリングモデル「Phoenix-4」をリリースしました。感情状態の生成・制御、アクティブリスニング行動、連続的な表情変化を統合した初のリアルタイムモデルとして、対話型AIアバター...
概要
OpenAIが2026年2月5日、最新のコーディング特化モデル「GPT-5.3-Codex」をリリースしました。SWE-Bench Proでトップ性能を達成し、史上初めて「自身の開発に貢献した」AIモデルとして、再帰的自己改善の新時...
概要
OpenAIは2026年2月5日、ソフトウェア開発に特化したエージェント型コーディングモデル「GPT-5.3-Codex」をリリースしました。SWE-Bench Proでトップ性能を達成し、自身の開発プロセスに貢献した初めてのAIモデ...
概要
Google DeepMindが2026年2月19日、最新モデル「Gemini 3.1 Pro」をリリースしました。ARC-AGI-2ベンチマークで77.1%という驚異的なスコアを達成し、前バージョンの2倍以上の推論性能向上を実現。...
概要
Googleは2026年2月19日、最新モデル「Gemini 3.1 Pro」をプレビュー版として発表しました。AIの真の推論能力を測定するARC-AGI-2ベンチマークで77.1%を達成し、前バージョン(31.1%)から2.5倍以上...
2026-02-25
概要
Anthropicが2026年2月5日にリリースしたClaude Opus 4.6が、Artificial Analysisランキングで1位を獲得した。OpenAIのGPT-5.2および前バージョンのClaude Opus 4.5を...
概要
Anthropicは2026年2月5日、フラッグシップモデルClaude Opus 4.6をリリースした。同モデルはArtificial Analysisランキングで1位を獲得し、OpenAIのGPT-5.2およびGoogle Ge...
概要
OpenAIは、AIエージェントを新入社員のように導入・管理できるエンタープライズプラットフォーム「Frontier」を発表した。オンボーディング、権限設定、パフォーマンス評価機能を搭載し、Accenture、BCG、Capgemi...
概要
Tavusが2026年2月19日に「Phoenix-4」をリリースしました。ガウシアン拡散ベースのモデルで、1080p・40fpsのリアルタイムアバター生成が可能です。感情制御や能動的傾聴行動に対応し、AIビデオ通話の新時代を切り開...
概要
Tavusは、ガウシアン拡散ベースのモデル「Phoenix-4」をリリースした。1080p・40fpsのリアルタイムアバター生成が可能で、感情制御や能動的傾聴行動に対応する、感情的知性を備えた初のリアルタイム人間レンダリングモデルで...