← Home
Model Releases 222 articles

新モデル・アップデート・ベンチマーク

All (222)Official (13)Community (209)
Industry & BusinessModel ReleasesAI SecurityOpen SourceResearchGitHub TrendingClaude Code
2026-04-27
Community

Google DeepMindのGemini 3.1がリアルタイム音声・画像解析を統合——GPT-5.4と並びAI総合ランキング1位を獲得

Google DeepMindがGemini 3.1をリリースし、リアルタイムの音声解析と画像解析機能を統合しました。Artificial Analysis Intelligence Indexでは、OpenAIのGPT-5.4と並んで同率...
Community

OpenAIがGPT-5.5を正式リリース——長文脈推論スコアが前モデルの2倍超(74.0%)、ChatGPTスーパーアプリ統合の中核に

OpenAIは4月23日、「GPT-5.5」を正式発表しました。GPT-4.5以来初めてゼロから再訓練されたベースモデルで、100万トークンの長文脈推論ベンチマーク「MRCR v2」において前モデルの36.6%から74.0%へと倍以上のスコ...
Community

DeepSeek V4プレビュー公開——入力100万トークンあたり0.145ドルの超低コストでClaude Opus 4.6超えのコーディング性能を実現

中国のAI企業DeepSeekが、「DeepSeek V4 Flash」および「DeepSeek V4 Pro」の2種類のMoE(混合エキスパート)モデルをオープンソースでプレビュー公開しました。両モデルとも100万トークンのコンテキストウ...
2026-04-26
Community

OpenAIがGPT-5.5を発表——1Mトークンコンテキストと Terminal-Bench 2.0で82.7%を達成

OpenAIは2026年4月23日、最新AIモデル「GPT-5.5」を発表しました。100万トークン(約75万語相当)のコンテキストウィンドウを搭載し、AIエージェントのターミナル操作能力を測定するベンチマーク「Terminal-Bench...
Community

DeepSeek V4 Flash/Proプレビュー公開——MITライセンス・1Mトークンでコーディングベンチマーク首位級

中国のAI研究機関DeepSeekは2026年4月24日、新シリーズ「V4 Flash」および「V4 Pro」のプレビューをMITライセンスで公開しました。独自のハイブリッドアテンション機構と100万トークンのコンテキストウィンドウを搭載し...
Community

Meta Llama 4がMoEアーキテクチャを採用——1,000万トークンコンテキストとネイティブマルチモーダルでオープンソース最大級

Metaはオープンソース大規模言語モデルシリーズの最新版「Llama 4」を発表しました。Llama初のMixture-of-Experts(MoE: 混合専門家)アーキテクチャを採用し、旗艦モデル「Scout」は17Bのアクティブパラメー...
2026-04-25
Community

DeepSeek V4プレビュー版が公開、コーディングベンチマークで高性能を達成しエージェント機能も大幅強化

中国のAI企業DeepSeekが、新フラグシップモデル「V4 Flash」および「V4 Pro」シリーズのプレビュー版を公開しました。コーディングベンチマークで高い性能を記録したほか、推論能力とエージェント機能においても前世代から大幅な改善...
Community

Meta、Llama 4 Scout・Maverickを公開——1000万トークンのコンテキストウィンドウとMoEアーキテクチャを採用

Metaがオープンウェイトモデルの新世代「Llama 4」シリーズとして「Scout」と「Maverick」の2モデルをリリースしました。LlamaシリーズとしてMoE(Mixture of Experts:専門家の混合)アーキテクチャを初...
Community

OpenAIがGPT-5.5を正式リリース、コーディング・コンピュータ操作・深い調査の3領域で能力を強化

OpenAIは新しい大規模言語モデル「GPT-5.5」を発表し、ChatGPTおよびCodexにおいてPlus・Pro・Business・Enterpriseの各プランのユーザー向けに展開を開始しました。前世代のGPT-5と比較して、コーデ...
Community

Z.aiがGLM-5.1をMITライセンスで公開、SWE-Bench Proで58.4点を記録しGPT-5.4を超える744Bパラメータモデル

中国のZ.ai(旧Zhipu AI)が、744億パラメータを持つ大規模言語モデル「GLM-5.1」をMITライセンスのオープンソースとして公開しました。コーディング能力を評価するベンチマーク「SWE-Bench Pro」において58.4点を...
2026-04-24
Community

OpenAI、GPT-5.5(コード名「Spud」)を正式リリース——ChatGPTのPlus/Pro/Businessに展開、APIは後日対応

OpenAIは2026年4月23日、次世代モデル「GPT-5.5」(コード名「Spud」)を正式リリースしたとAxiosおよびTechCrunchが報じています。ChatGPTのPlus・Pro・Business・Enterpriseユーザ...
Community

Google、Gemini 3.1 Pro搭載の「Deep Research」エージェントをAPIで公開——BrowseCompベンチマーク85.9点、前モデル比25点超を達成

GoogleがGemini 3.1 Proをバックエンドに採用した「Deep Research」と「Deep Research Max」の2つのリサーチエージェントをAPIで公開しました。Webおよびプライベートデータの横断検索、ネイティブ...
Community

OpenAI、防衛サイバーセキュリティ特化モデル「GPT-5.4-Cyber」を公開——Anthropic Mythosとのセキュリティ特化AI競争が激化

OpenAIが防御型サイバーセキュリティ用途に特化した新モデル「GPT-5.4-Cyber」を公開しました。Anthropicが自律的なゼロデイ脆弱性発見能力を持つ「Mythos Preview」を公開した数日後のリリースであり、セキュリテ...
2026-04-23
Official

AnthropicがGPQA Diamond 94.6%・SWE-bench 93.9%のAI「Claude Mythos」の公開を拒否 — ゼロデイ脆弱性大量発見でサイバーリスクと判断、4月22日にはハッキング被害も

Anthropicは4月7日、史上最高性能のAIモデル「Claude Mythos」を完成させながら、一般公開を見送る異例の決断を下しました。GPQA Diamond 94.6%・SWE-bench Verified 93.9%という圧倒的...
Community

OpenAI、GPT-5.4を3バリアントで正式リリース — コンテキスト105万トークン・個別エラー33%減でGemini 3.1 Ultraとベンチマーク首位を分け合う

OpenAIがGPT-5.4をStandard・Thinking・Proの3バリアントで正式リリースしました。コンテキストウィンドウはOpenAI史上最大となる105万トークンを実現し、個別エラーが前世代比33%減・フルレスポンスエラーが1...
Community

Google「Gemini 3.1 Ultra」正式公開 — GPQA Diamond 94.3%・ARC-AGI-2 77.1%で主要ベンチマークほぼ全制覇、GPT-5.4と並びトップに

Googleがネイティブマルチモーダル推論AIモデル「Gemini 3.1 Ultra」を正式リリースしました。GPQA Diamond(博士レベル科学問題ベンチマーク)で94.3%、ARC-AGI-2(汎用推論ベンチマーク)で77.1%を...
Community

AnthropicがClaude Opus 4.7をリリース — コーディング性能はCursorBench12ポイント向上も、新トークナイザーで最大35%コスト増・Reddit批判投稿が2,300超アップボート

Anthropicが4月16日、「Claude Opus 4.7」を正式リリースしました。エージェント・コーディング用途でのCursorBenchスコアが前世代の4.6比で12ポイント向上し、開発者向け性能の強化が図られています。しかし一般...
Community

MetaがオープンソースLlamaを捨て、初のプロプライエタリAI「Muse Spark」を発表 — MetaAIアプリが前日比87%増でApp Store5位、開発者コミュニティから「裏切り」の声

Metaが4月8日、Meta Superintelligence Labs開発のネイティブマルチモーダル推論モデル「Muse Spark」を発表しました。同社にとって初のプロプライエタリ(非公開ウェイト)AI提供となり、発表翌日にはMeta...
2026-04-22
Community

OpenAI Codexが大型刷新 — 自律PC操作・スケジュール実行・90以上のプラグイン対応でエンタープライズ市場へ本格参入

OpenAIは4月16〜21日にかけてCodexのデスクトップアプリを大幅に刷新しました。自律的なコンピューター操作(クリック・タイピング)、ブラウザ内での作業指示、将来タスクの自動スケジューリング、そしてGitLab・Atlassian・...
Community

Claude Opus 4.7リリース48時間で大炎上 — トークン消費35%増・品質低下に2,300超のアップボートが集まる「Legendarily Bad」騒動

Anthropicが4月16日にリリースしたClaude Opus 4.7は、公開からわずか48時間以内にReddit・Discord・Hacker Newsで激しい批判を受けることになりました。トークン消費量が最大35%増加し、コード出力...
Community

MetaがプロプライエタリAI「Muse Spark」を発表 — Llamaオープンソース路線から大転換、株価は当日6.5%急騰

Metaは4月8日、最高AI責任者のAlexandr Wang氏率いるMeta Superintelligence Labsが開発した初のプロプライエタリモデル「Muse Spark」を発表しました。同社がこれまで推進してきたLlamaオー...
2026-04-21
Community

Google Gemini 3.1 Ultraリリース:200万トークンコンテキスト・GPQA Diamond 94.3%でGPT-5.4を上回る推論性能

Googleが最新の大規模言語モデル「Gemini 3.1 Ultra」を正式リリースしました。最大200万トークンというコンテキストウィンドウを持つ本モデルは、難易度の高い博士レベル推論ベンチマーク「GPQA Diamond」で94.3%...
Community

Claude Opus 4.7正式リリース:SWE-bench Verified 87.6%・最大2576px高解像度ビジョン・128kトークン出力対応

Anthropicが4月16日にClaude Opus 4.7を正式リリースしました。ソフトウェアエンジニアリングベンチマーク「SWE-bench Verified」で87.6%を達成し、前世代モデルを大幅に上回る性能を示しています。最大2...
2026-04-20
Official

AnthropicがClaude Mythos 5を発表:史上初の10兆パラメータモデル、一般公開はなし

Anthropicは、史上初となる10兆パラメータの大規模言語モデル「Claude Mythos 5」を発表しました。サイバーセキュリティや学術研究などの高リスク環境向けに特化して設計されており、既存のフロンティアモデルを大幅に上回る性能を...
Community

Alibaba Qwen 3.6-Plus:SWE-bench 78.8%・100万トークンコンテキストでコーディングベンチマーク5部門首位、Apache 2.0で公開

AlibabaのQwenチームが2026年4月2日に正式公開した「Qwen 3.6-Plus」は、SWE-bench Verified(実際のGitHubイシューをAIが自律修正するベンチマーク)で78.8%のスコアを記録し、LiveCod...
Community

OpenAI、GPT-5 Turboをリリース——テキスト・画像・音声を単一モデルで処理、デスク作業ベンチマーク75.0%達成

OpenAIが「GPT-5 Turbo」をリリースしました。テキスト、画像、音声の生成を一つのモデルがネイティブに処理するマルチモーダル(複数の情報形式を扱える)機能を搭載し、デスクタスクベンチマーク(オフィス業務を模した評価指標)で75....
Community

GPT-6「Spud」、事前学習完了も発表遅延——予測市場で「4月30日リリース」確率が6ポイント下落

コードネーム「Spud(スパッド)」で知られるOpenAIの次世代モデルGPT-6の事前学習が、3月24日に完了したことが明らかになっています。Sam Altman CEOは「数週間以内」のリリースを示唆していましたが、4月14日とされた噂...
2026-04-19
Community

GPT-5.4がOSWorld-Verifiedで75.0%達成——前モデルGPT-5.2の47.3%から27ポイント向上、デスクトップ操作AIの実用化が急加速

OpenAIは新モデル「GPT-5.4」を発表し、コンピューター操作タスクを評価するベンチマーク「OSWorld-Verified」において75.0%のスコアを達成しました。前モデルGPT-5.2が記録した47.3%から27.7ポイントの大...
Community

NVIDIAのNemotron 3 Super——Mamba-Attentionハイブリッドで100万トークンコンテキストを競合比2.2倍のスループットで処理

NVIDIAが新モデル「Nemotron 3 Super」を発表しました。総パラメータ数120B(120億×10層相当のMoE構成)でアクティブパラメータは12B、最大100万トークンのコンテキスト長を持ち、MambaとAttentionを...
Community

Claude Opus 4.7がSWE-bench Proで64.3%達成——GPT-5.4の57.7%とGemini 3.1 Proの54.2%を上回り公開最強LLMの座を奪還

Anthropicは4月16日、最新フラッグシップモデル「Claude Opus 4.7」をリリースしました。ソフトウェアエンジニアリング能力を測る業界標準ベンチマーク「SWE-bench Pro」において64.3%のスコアを記録し、GPT...
2026-04-18
Community

Gemini 3.1 Pro、主要16ベンチマーク中13で首位——GPT-5.4 Proと同等スコアをコスト3分の1で実現

GoogleのGemini 3.1 Proが、主要ベンチマーク16種中13種で首位を獲得しました。Artificial Analysis Intelligence Indexではライバルに当たるOpenAIのGPT-5.4 Proと同等スコ...
Community

OpenAI、バイナリリバースエンジニアリング対応の「GPT-5.4-Cyber」を発表——Mythos公開から1週間で審査済みセキュリティ機関に限定展開

OpenAIは2026年4月14日、サイバーセキュリティ専門モデル「GPT-5.4-Cyber」を発表しました。AnthropicがClaude Mythosを公表してから1週間というスピードでの対応で、バイナリリバースエンジニアリング(逆...
Community

MetaがHealthBench Hard首位の「Muse Spark」を発表——Alexandr Wang率いる新チームの初作がオープンソース路線を放棄し業界に衝撃

Metaのスーパーインテリジェンスラボが新モデル「Muse Spark」を発表しました。医療AIベンチマーク「HealthBench Hard」でGPT-5.4を上回り1位を獲得するなど高い性能評価を得ている一方、Metaがこれまで掲げてき...
2026-04-17
Community

AnthropicがClaude Opus 4.7を正式リリース — SWE-bench 87.6%・GPQA Diamond 94.2%でコーディング性能が13%向上

Anthropicは2026年4月16日、最新フラッグシップモデル「Claude Opus 4.7」を正式リリースしました。ソフトウェアエンジニアリングの実力を測るSWE-bench Verifiedスコアは87.6%、大学院レベルの科学問...
Community

OpenAIが次世代モデル「Spud」の事前学習完了を確認 — Sam Altman氏が「非常に強力」と社内通達、4月リリースに78%の確率

OpenAIが社内コードネーム「Spud」と呼ばれる次世代大規模言語モデルの事前学習を2026年3月24日頃に完了したことが明らかになりました。同社CEOのSam Altman氏は「非常に強力なモデルだ」と社内に通達しており、予測市場Pol...
2026-04-16
Community

AnthropicがClaude Mythos Previewを発表、自律的なゼロデイ発見能力で主要11社に限定提供

Anthropicは新フラッグシップモデル「Claude Mythos Preview」を発表し、AWS・Apple・Google・Microsoftなど主要11社に限定プレビュー提供を開始しました。Project Glasswingと名付...
Community

MetaがMuse Sparkを発表、$143億投じた初の独自クローズドモデルでLlamaオープン路線を転換

Metaは初の独自プロプライエタリAIモデル「Muse Spark」を発表しました。Alexandr Wang率いる新組織Meta Superintelligence Labsが開発したネイティブマルチモーダル推論モデルで、Meta AI・...
Community

Google DeepMindがGemini 3.1 Proをリリース、GPQA Diamondで94.3%達成しGPT-5.4を複数指標で上回る

Google DeepMindは最新フラッグシップモデル「Gemini 3.1 Pro」を正式リリースしました。科学・数学の難問集として知られるGPQA Diamond(Graduate-Level Google-Proof Q&A)で94...
2026-04-15
Community

Alibaba Qwen 3.6 Plusリリース——100万トークンコンテキスト・速度2〜3倍向上でエンタープライズエージェントAIを加速、ただしクローズドソースに転換

中国のAlibabaが4月2日、最新AIモデル「Qwen 3.6 Plus」をリリースしました。デフォルトで100万トークンのコンテキスト窓を提供し、MCP(Multi-step Capability Planning)Markツール呼び出...
Community

Meta Llama 4リリース——MoEアーキテクチャ・1000万トークンコンテキスト窓を搭載も、コミュニティからベンチマーク操作疑惑と実使用での低性能を指摘

MetaがオープンソースLLMシリーズの最新作「Llama 4」を正式にリリースしました。Scoutモデルは17Bのアクティブパラメーターと109Bの総パラメーターを持ち、Llama初となるMixture-of-Experts(MoE、混合...
Community

MetaがSuperintelligence Labs設立後初の独自クローズドモデル「Muse Spark」を発表——Llamaオープンソース路線からの転換を示唆か

Metaが4月8日、同社のSuperintelligence Labs設立後初となるプロプライエタリ(非公開)AIモデル「Muse Spark」を発表しました。これまでMetaはLlamaシリーズのオープンソース公開を一貫して推進してきまし...
2026-04-13
Community

AnthropicがClaude Mythos 5を公開—世界初10兆パラメータで主要OS・ブラウザのゼロデイ脆弱性を数千件発見、一般公開は見送り

Anthropicは4月7日、サイバーセキュリティ特化型の大規模言語モデル「Claude Mythos 5」のプレビューを公開しました。同時に「Project Glasswing(プロジェクト・グラスウィング)」として、AWS・Apple・...
Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%達成—前世代比2倍超の推論力と100万トークンコンテキストを搭載

Google DeepMindは2026年2月19日、最新フラッグシップモデル「Gemini 3.1 Pro」を公開しました。100万トークンのコンテキストウィンドウと、前世代モデルから2倍以上の推論性能向上を実現し、未学習の論理問題を解く...
Community

OpenAI GPT-5.4 Thinkingがデスクトップ操作ベンチマークOSWorldで75.0%達成—人間の72.4%を初めて上回る

OpenAIは3月5日にリリースした「GPT-5.4」の「Thinking(シンキング)」変種が、コンピュータ操作能力を測る業界標準ベンチマーク「OSWorld-Verified」で75.0%のスコアを達成し、人間の熟練者が同テストで記録し...
Community

MetaがMuse Sparkを発表—Alexandr Wang体制で初のフロンティアモデル、LlamaのオープンソースからクローズドAPIに転換し株価5日で約10%上昇

Metaは4月8日、元Scale AI CEOのAlexandr Wang氏が率いる新設「Superintelligence Labs(スーパーインテリジェンス・ラボ)」が開発した初のフロンティアモデル「Muse Spark」を発表しました...
2026-04-12
Community

Google Gemini 3.1 Ultra公開 — 200万トークンコンテキスト・ネイティブマルチモーダルでGPQA 94.3%・ARC-AGI-2 77.1%を達成

Googleは4月、最上位モデル「Gemini 3.1 Ultra」を一般公開しました。最大200万トークンのコンテキストウィンドウ(日本語で約600冊分の文庫本に相当)と、テキスト・画像・音声・動画を対等に扱うネイティブマルチモーダルアー...
Community

MetaがAlexandr Wang主導の初モデル「Muse Spark」発表 — 143億ドル投資の成果がLlamaのオープンソース路線から決別

Metaは4月8日、Scale AIの創業者Alexandr Wang氏が率いる「Meta Superintelligence Labs」が開発した初のAIモデル「Muse Spark」を発表しました。GPT-5.4やClaude Sonn...
Community

OpenAI、GPT-5.4とCodexの急成長を公表 — 週間200万ユーザー・3ヶ月で5倍、前月比70%成長を達成

OpenAIは、最新フラッグシップモデル「GPT-5.4」とAIコーディングエージェント「Codex」の最新進捗を公表しました。Codexの週間アクティブユーザー数は200万人を突破し、過去3ヶ月で5倍に成長。月間成長率は70%超に達してお...
2026-04-10
Community

Google Gemini 3.1 Proが主要ベンチマーク16中13で首位——GPQA Diamond 94.3%、APIコストはGPT-5.4の約8割でTPU縦統合がコスト優位の源泉

Google DeepMindが2026年2月19日にリリースした「Gemini 3.1 Pro」が、Artificial Analysis Intelligence Indexをはじめとする主要ベンチマーク16項目中13項目で首位を獲得し...
Community

AnthropicがClaude Managed Agentsを発表——エージェントのメモリ・権限・サンドボックスを丸ごと提供、LangChain不要論も

AnthropicはエンタープライズAIエージェントの本番運用を抜本的に簡素化する新製品「Claude Managed Agents」を発表しました。メモリ管理・権限制御・サンドボックス実行環境・エージェントハーネスをまとめてマネージドサー...
Community

Google NotebookLMがGeminiに統合——過去チャットやファイルをノートブックソースとして活用、研究ワークフローが大幅効率化

GoogleはAI研究補助ツール「NotebookLM」をGeminiに直接統合し、Geminiとの過去チャット履歴や関連ファイルをNotebookLMのソースとして活用できる新機能を実装しました。複数のプロジェクトを管理しながら、これまで...
Community

MetaがMuse Sparkを発表——Alexandr Wang率いる新研究所の初モデル、コーディング性能の差を正直に認めつつFacebook・Instagram・WhatsAppへの統合へ

Metaは2026年4月8日、新設した「Meta Superintelligence Labs」の初作となるAIモデル「Muse Spark」を発表しました。同ラボを率いるのは、2025年6月にScale AIのCEOとしてMetaに迎えら...
Community

GPT-5.4 ThinkingがOSWorld-Verifiedで75.0%を達成——人間の72.4%を初めて超え、デスクトップ自律操作でAIが人間レベル越え

OpenAIは2026年3月5日にリリースしたGPT-5.4のThinkingバリアントが、デスクトップ自律操作のベンチマーク「OSWorld-Verified」で75.0%というスコアを記録し、人間専門家の基準値72.4%を初めて上回りま...
2026-04-09
Community

MicrosoftがMAI-Transcribe-1・MAI-Voice-1・MAI-Image-2を発表——25言語対応・1秒以内の音声生成でOpenAI依存脱却を鮮明に

Microsoftが2026年4月2日、自社ブランドのAI基盤モデル「MAI」シリーズとして3つの専門モデルをMicrosoft Foundry上でリリースしました。音声認識の「MAI-Transcribe-1」、音声生成の「MAI-Voi...
Community

Google Gemini 3.1 Ultraが200万トークンコンテキストとリアルタイム音声・映像解析を搭載——マルチモーダルAIの最前線が更新

Google DeepMindが「Gemini 3.1 Ultra」をリリースしました。最大の特徴は200万トークンという業界最大クラスのコンテキストウィンドウで、テキスト・画像・音声・動画をネイティブに処理するマルチモーダル設計と、サンド...
Community

GPT-5.4 ThinkingがOSWorldで75.0%——PC自律操作で人間(72.4%)を史上初めて超える

OpenAIが2026年3月5日にリリースしたGPT-5.4 Thinkingが、自律PCタスクのベンチマーク「OSWorld-Verified」で75.0%を達成しました。人間の専門家ベースライン72.4%を上回ったのは、汎用AIモデルと...
2026-04-08
Community

OpenAIがGPT-5.4を2バリアントでリリース——ThinkingとProの使い分け、APIで100万トークンコンテキスト提供

OpenAIが3月5日、GPT-5.4 ThinkingとGPT-5.4 Proの2バリアントをリリースしました。いずれもAPIで100万トークンのコンテキストウィンドウを提供し、2026年2〜3月にわたる「AI史上最密な新モデルリリース期...
Community

PrismML、1ビットLLM「Bonsai」を発表 — 8Bモデルが1.15GBに収まり、iPhone上で毎秒130トークンを実現

カリフォルニア工科大学発のAIスタートアップPrismMLが4月4日、モデルの重みを1ビット({−1, +1})に完全量子化したLLMファミリー「Bonsai」を発表し、シードラウンドで1625万ドルを調達したことを明らかにしました。8Bパ...
Community

Gemini 3.1 Pro、SWE-bench 80.6%・GPQA Diamond 94.3%でGPT-5.4とClaude Opus 4.6を超え16ベンチマーク中13首位

Googleが2月19日に公開したGemini 3.1 Proが、独立評価機関による16の主要ベンチマーク中13項目でトップスコアを記録し、フロンティアモデルの新基準を打ち立てました。コード生成能力の指標であるSWE-bench Verif...
Community

Claude Opus 4.6がLMSYS Chatbot Arenaで首位獲得——100万トークンコンテキスト・SWE-bench 65.3%で商用最高水準

AnthropicのClaude Opus 4.6が2月5日のリリース後、LMSYS Chatbot Arenaのランキングでトップに立ちました。人間による盲目的な選好評価を集計するChatbot Arenaは、ベンチマーク数値に依存しない...
2026-04-07
Community

Claude Sonnet 4.6がGDPval-AA Eloで1,633点・首位獲得——Opus水準の性能をSonnet価格帯で実現

AnthropicのClaude Sonnet 4.6がGDPval-AA(General-Domain Performance Validation)Eloベンチマークで1,633点を記録し、主要モデルの中で首位に立ちました。GDPval...
Community

OpenAIの次世代モデル「Spud」がプレトレーニング完了、Q2 2026リリースへ——GPT-5.5かGPT-6かの命名も焦点に

OpenAIの次世代フラッグシップモデルのコードネーム「Spud」が2026年3月24日にプレトレーニングを完了し、Q2 2026中の公開に向けた最終フェーズに入っています。Sam Altman CEOはX上でリリースまであとわずかであるこ...
Community

Alibabaが「Qwen 3.6-Plus」を発表、デフォルト100万トークンコンテキストとスクリーンショットからのコード生成に対応——初のクローズドソース化で開発者コミュニティに波紋

Alibabaは2026年4月2日、最新LLMシリーズ「Qwen 3.6-Plus」を発表しました。デフォルトで100万トークン(約75万単語相当)のコンテキストウィンドウを搭載し、スクリーンショットやデザイン稿からのコード自動生成に対応す...
2026-04-06
Community

AnthropicがClaude Sonnet 5をリリース、SWE-bench 92.4%で前世代から12ポイント向上・価格据え置き

AnthropicはAIモデル「Claude Sonnet 5」(モデル文字列:claude-sonnet-5-20260401)を2026年4月1日にリリースしました。ソフトウェアエンジニアリングの実力を測るSWE-bench Verif...
Community

GPT-5.4が44職種の専門家タスクでGDPVal 83.0%を達成、OpenAIが「知識労働AIの新時代」を宣言

OpenAIは2026年3月5日にフラッグシップモデル「GPT-5.4」を発表しました。米国GDPに貢献する上位9産業・44職種の知識労働タスクを評価するベンチマーク「GDPVal」で83.0%を達成し、前世代のGPT-5.2(70.9%)...
Community

GoogleがGemini 3.1 Ultraをリリース、200万トークンコンテキストとサンドボックス型コード実行をネイティブ統合

Googleは2026年4月、大規模言語モデル「Gemini 3.1 Ultra」をリリースしました。最大200万トークンのコンテキストウィンドウを備え、テキスト・画像・音声・動画をネイティブに処理できます。さらに会話中にコードを実際に書い...
2026-04-05
Community

MicrosoftがOpenAI依存脱却を宣言、自社開発のMAI-Transcribe-1・Voice-1・Image-2をAzure Foundryで提供開始

Microsoftが2026年4月2日、自社開発のAIモデルファミリー「MAI」シリーズとして音声認識・音声生成・画像生成の3モデルをMicrosoft Foundryで正式提供開始しました。音声認識モデル「MAI-Transcribe-1...
Community

Anthropicの「Claude Mythos」がサイバーセキュリティパートナーに早期アクセス開始、10兆パラメータ級の「ステップチェンジ」モデル

Anthropicが開発中の最上位モデル「Claude Mythos」(開発コード:Capybara)が、サイバーセキュリティ分野の早期アクセスパートナーへの提供を開始したことが明らかになりました。Fortuneが2026年3月26日に報じ...
Community

OpenAI GPT-5.4 ThinkingがOSWorldで75%・人間の72.4%を超え、デスクトップ操作で人間超えを初めて達成

OpenAIが2026年3月5日にリリースしたGPT-5.4シリーズの全面展開が完了し、「Thinking」バリアントがOSWorld-Verified(デスクトップ操作の自動化能力を測る評価指標)で75.0%のスコアを記録、人間の平均スコ...
Community

Google Gemini 3.1 Flash-Liteが前世代比2.5倍高速・入力1Mトークン$0.25で登場、長文エージェント開発を現実的なコストに

Google DeepMindが2026年3月3日、Gemini 3.1スイートの中で最もコスト効率に優れた「Flash-Lite」モデルをプレビュー公開しました。Google公式ブログによると、同モデルは前世代のGemini 2.5 Fl...
2026-04-04
Community

OpenAI GPT-5.4が83%の職種で専門家レベルを達成、ネイティブPC操作機能搭載も国防総省契約で250万人ボイコット

3月5日にリリースされたOpenAIの「GPT-5.4」は、汎用AIモデルとして初めてネイティブなコンピューター操作(computer-use)機能を搭載し、1Mトークンのコンテキストウィンドウにも対応した大型リリースです。GDPValベン...
Official

Claude Sonnet 4.6:30万トークン出力と1Mコンテキストが標準解禁、Opus 4.5を超える評価も—無料プランでデフォルトモデルに

Anthropicが2月17日にリリースした「Claude Sonnet 4.6」が開発者コミュニティで注目を集めています。1Mトークンのコンテキストウィンドウをベータヘッダー不要で標準利用可能にし、Message Batches APIの...
Community

Grok 4.20 Beta:xAIが完全新設計のマルチエージェントアーキテクチャ採用推論モデルをAPIで提供開始、Grok 5はQ2目標に

Elon MuskのxAIが2026年3月10日、新たな推論モデル「Grok 4.20 Beta 0309」をリリースしました。完全新設計のマルチエージェントアーキテクチャを採用しており、単一モデルの性能向上だけでなく複数エージェントが協調...
Community

GPT-5.5(コードネーム「Spud」)の事前学習完了を確認、Q2 2026リリースへ——DeepSeek V4も同時期に控え価格競争が激化の見通し

OpenAIの次世代モデル「GPT-5.5」(内部コードネーム「Spud」)の事前学習が完了したことが確認されました。GPT-5.4が2026年3月5日にリリースされたばかりであることを考えると、わずか数ヶ月でのフォローアップ投入という非常...
Community

AnthropicがOpus超えの新モデル「Claude Mythos」を誤公開、政府に前例のないサイバー攻撃リスクを私的警告

3月26日、AnthropicのCMS(コンテンツ管理システム)の設定ミスにより、非公開モデル「Claude Mythos」の詳細情報が外部に漏洩しました。Fortuneの報道によると、Claude MythosはOpusを超える全く新しい...
Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%を達成——前世代の31.1%から2倍超の改善、16中13ベンチマークで首位

2月19日にリリースされたGoogle DeepMindの「Gemini 3.1 Pro」が、純粋な論理・問題解決能力を測る難関ベンチマーク「ARC-AGI-2」において77.1%のスコアを記録しました。前世代モデルの31.1%から2倍以上...
Community

Alibaba CloudがQwen3.6-Plusをリリース、100万トークンのコンテキストでリポジトリ規模のコーディングに対応

4月2日、Alibaba CloudがエンタープライズAIコーディングエージェント「Qwen3.6-Plus」を正式リリースしました。標準で100万(1M)トークンのコンテキストウィンドウを提供し、フロントエンドの単発コード生成からリポジト...
2026-04-03
Community

AnthropicがMessage Batches APIのmax_tokensを30万トークンに拡張 — 長文書類生成やコードタスクの大規模処理が現実に

Anthropicは2026年4月、Claude Opus 4.6およびSonnet 4.6のMessage Batches APIにおけるmax_tokensの上限を従来の大幅に上回る30万トークン(300,000トークン)に引き上げたと...
Community

xAI、Grok 4.20で4専門エージェント並列動作の新アーキテクチャを導入 — ファクトチェック・論理・創造推論を分業化

Elon Musk氏率いるxAIは、最新モデル「Grok 4.20」において4つの専門エージェントが複雑なクエリに並列対応する新アーキテクチャを導入したと発表しました。「調整役のGrok」「ファクトチェック担当のHarper」「論理・コーデ...
Community

GPT-5.4が人類専門家レベルを超えるGDPValベンチマーク83%を達成

OpenAIが「GPT-5.4 Thinking」モデルを発表し、経済的価値のあるタスクで人間の専門家レベル以上の性能を測定する新指標「GDPVal(GDP価値評価)ベンチマーク」で83.0%を達成しました。GPT-5.3 Codexのリリ...
Community

Google、Gemini 3.1 Proを開発者向けプレビュー公開 — ARC-AGI-2で77.1%、100万トークンコンテキストを実現

Googleは2026年4月、最新AIモデル「Gemini 3.1 Pro」の開発者・エンタープライズ向けプレビューを公開しました。100万トークン(約75万〜100万英単語相当)のコンテキストウィンドウを持ち、汎用知能の指標として注目され...
Community

Alibaba、100万トークン対応「Qwen3.6-Plus」をリリース — OpenRouter経由で無料プレビュー、中国モデルがフロンティアに並ぶ

Alibabaは2026年4月初旬、エンタープライズ向けAIモデル「Qwen3.6-Plus」を正式リリースしました。100万トークンのコンテキストウィンドウ、常時オンのChain-of-Thought(思考連鎖)推論、ネイティブ関数呼び出...
2026-04-02
Community

OpenAI、GPT-5.4 ThinkingとProを正式リリース — OSWorldで人間専門家72.4%を超える75%を達成

OpenAIは2026年3月5日、新モデル「GPT-5.4」のThinkingおよびPro版を正式にリリースしました。同社によると、デスクトップ操作の総合ベンチマーク「OSWorld」において75%のスコアを達成し、人間の専門家による正解率...
Community

AnthropicのCMS設定ミスで次世代モデル「Claude Mythos(Capybara)」が意図せず公開、政府にサイバーセキュリティリスクを警告

Anthropicの内部コンテンツ管理システム(CMS)の設定ミスにより、約3,000ファイルが一時的に外部公開され、次世代モデル「Claude Mythos」(内部コードネーム:Capybara)の存在が外部に知れ渡りました。Fortun...
Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%を達成、AIエージェントランキング首位に — Flash-Liteは競合の4分の1の価格を実現

Googleは2026年2月19日、「Gemini 3.1 Pro」を正式リリースしました。汎用推論能力の評価指標として注目される「ARC-AGI-2」において77.1%を達成したと発表したほか、AIエージェントの総合性能評価ランキング「A...
2026-04-01
Community

Gemini 3.1 ProがARC-AGI-2で77.1%を達成——前世代の2倍超、16ベンチマーク中13項目でClaude・GPTを上回る

Google DeepMindが2月19日にリリースした「Gemini 3.1 Pro」が、AIの汎用的推論能力を測るとされるARC-AGI-2ベンチマークで77.1%を記録しました。前世代のGemini 3 Proの2倍超のスコアを叩き出...
Community

GPT-5.4リリース、GDPValベンチマークで83.0%——人間専門家レベルの経済的タスクをAIがこなせる時代へ

OpenAIが3月、「GPT-5.4」をStandard・Thinking・Pro3の3バリアントで正式リリースしました。なかでもGPT-5.4 Thinkingは、経済的価値のあるタスクへの対応力を測る「GDPVal」ベンチマークで83....
2026-03-31
Community

GPT-5.4リリース — 人間超えのOSWorld 75%達成、APIは最大105万トークンのコンテキストウィンドウを提供

OpenAIは2026年3月5日、最新フラッグシップモデル「GPT-5.4」を正式リリースしました。標準・Thinking・Proの3バリアントで提供されており、APIでは最大105万トークンという業界最大級のコンテキストウィンドウに対応し...
Community

NVIDIA、GTC 2026でNemotron 3 Superを発表 — SWE-Bench 60.47%でオープンウェイト最高、GPT-OSSの2.2倍のスループット

NVIDIAはGTC 2026(2026年3月11日)でオープンウェイトモデル「Nemotron 3 Super」を発表しました。1,200億パラメータのハイブリッドMamba-Transformer MoE(混合エキスパート)アーキテクチ...
Community

「Hunter Alpha」の正体はXiaomiの1兆パラメータAI — 開発者帰属なしでOpenRouterに登場し週5,000億トークンを消費した謎のモデル

2026年3月11日、「Hunter Alpha」と名付けられた謎のAIモデルが開発者名不明のままOpenRouterに無料公開されました。ドキュメントも、マーケティングも、所属情報も一切なし。しかしその正体は3月18日に明かされ、スマート...
2026-03-30
Community

AnthropicのCMS誤設定で次世代モデルMythosが流出——推論サイバー能力で段階的変化と公式確認

Anthropicは2026年3月下旬、外部CMSツールの設定ミスにより次世代モデル「Claude Mythos(コードネーム:Capybara)」の存在を意図せず公開してしまいました。Fortune誌がこれを報道し、Anthropicは「...
Community

Google Gemini 3 Deep ThinkがARC-AGI-2で84.6%達成——Ultraユーザー向け公開と研究者APIも解放

Googleは2026年2月、推論特化モデル「Gemini 3 Deep Think」の大規模アップグレードをGoogle AI Ultraサブスクライバー向けに正式公開しました。同時に科学者・エンジニア・企業向けのAPIを早期アクセスプロ...
Community

楽天「Rakuten AI 3.0」が日本語ベンチマーク最高スコアを記録——経産省GENIACプロジェクトが国産LLMの新基準を樹立

楽天グループが、経済産業省の「GENIAC(生成AIの高度化・産業化に向けた基礎モデルの開発・普及推進」プロジェクトの支援のもとで開発した大規模言語モデル「Rakuten AI 3.0」を公開しました。同モデルは日本語能力評価の各種ベンチマ...
Community

GoogleがGemini 3.1 Flash-Liteを公開——前世代比2.5倍の速度、入力$0.25/Mトークンという破格の価格でAPI料金戦争が本格化

Googleは2026年3月3日、新モデル「Gemini 3.1 Flash-Lite」をプレビュー公開しました。前世代のGemini 2.5 Flashと比べて処理速度が2.5倍に向上し、入力コストは$0.25/100万トークン、出力コス...
2026-03-29
Community

OpenAIがGPT-5.4をリリース、100万トークンの超大型コンテキストとファクトエラー33%削減を実現

OpenAIは2026年3月5日、最新のフラッグシップモデル「GPT-5.4」をリリースしました。同社が「プロフェッショナルワーク向けで最も高性能かつ効率的なフロンティアモデル」と位置づける本モデルは、100万トークンという巨大なコンテキス...
Community

Claude Opus 4.6がFirefox含むOSSで500件以上の高深刻度脆弱性を発見、セキュリティAIの新時代へ

Anthropicが2026年2月5日にリリースした最新AIモデル「Claude Opus 4.6」が、オープンソースソフトウェアのセキュリティ検証において驚異的な成果を上げています。同社によると、テスト期間中にLinuxカーネルやGhos...
Community

Google DeepMindのGemini 3.1 ProがARC-AGI-2で77.1%を達成、抽象推論で他モデルを大きく引き離す

Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。注目すべきは、未知の論理パターンを解く能力を測定するARC-AGI-2ベンチマークで77.1%という驚異的なスコアを記録...
2026-03-28
Community

OpenAIがGPT-5.4をリリース、100万トークンのコンテキストウィンドウとネイティブPC操作機能を搭載

OpenAIは3月5日、同社の最新フラッグシップモデル「GPT-5.4」を発表しました。「プロフェッショナルワークのための最も高性能で効率的なフロンティアモデル」と位置づけられた本モデルは、API経由で最大100万トークンのコンテキストウィ...
Community

Anthropicがメモリ機能を無料ユーザーに開放、ChatGPT履歴インポート機能も搭載し乗り換え需要を狙う

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料プラン全ユーザーに開放しました。これまで月額20ドルの有料プランでのみ利用可能だった会話間のコンテキスト保持機能が、無料で使えるようになります。同時に、Chat...
2026-03-27
Community

OpenAI GPT-5.4が100万トークン対応&コンピュータ操作で人間超え、OSWorldで75%達成

OpenAIは2026年3月5日、最新の大規模言語モデル「GPT-5.4」をリリースしました。Standard、Thinking、Proの3バリアント構成で、最大100万トークンのコンテキストウィンドウとネイティブのコンピュータ操作機能を搭...
Community

LTX 2.3発表 - 220億パラメータで4K 50fps動画・音声を同時生成、オープンソースで商用利用可

Lightricksが3月5日、オープンソースの動画生成AI「LTX 2.3」を発表しました。220億パラメータのDiffusion Transformerモデルで、4K解像度・50fpsの動画と音声を同時に生成できる初の本格的なオープンソ...
Community

xAI Grok 4.20が4エージェント並列アーキテクチャを導入、Alpha Arenaで平均12.11%リターン達成

Elon Musk率いるxAIは、最新モデル「Grok 4.20」をベータ版としてリリースしました。従来の単一モデル構成から大きく転換し、4つのAIエージェントが並列で動作する新アーキテクチャを採用しています。株式取引シミュレーション「Al...
2026-03-26
Community

OpenAI GPT-5.4「Thinking」発表、100万トークンのコンテキストウィンドウとネイティブPC操作機能を搭載

OpenAIは3月5日、推論最適化モデル「GPT-5.4 Thinking」をリリースしました。100万トークンのコンテキストウィンドウ、ネイティブのコンピュータ操作機能、ツール検索機能を搭載し、API価格は入力100万トークンあたり2.5...
Community

Apple SiriがGoogle Geminiで大刷新へ、1.2兆パラメータモデルをPrivate Cloud Computeで運用

Appleは2026年1月12日、GoogleとのAI分野における複数年にわたる提携を発表し、次世代のApple FoundationモデルがGoogleのGeminiモデルとクラウド技術をベースとすることを明らかにしました。ライバル関係に...
Official

Anthropic Claude Opus 4.6発表、SWE-Bench Verifiedで80.8%を達成しコーディング性能で商用モデル首位に

Anthropicは2月5日、最新フラッグシップモデル「Claude Opus 4.6」をリリースしました。100万トークンのコンテキストウィンドウ(ベータ版)を搭載し、HumanEval+で95%、SWE-Bench Verifiedで8...
Community

Google Gemini 3.1 Pro発表、16ベンチマーク中13で首位獲得しOpusの半額で同等以上の性能を実現

Googleは2月19日、「Gemini 3.1 Pro Preview」をリリースしました。入力100万トークンあたり2ドル、出力12ドルという価格設定で、フロンティアレベルの性能をコモディティ価格で提供しています。これはClaude O...
2026-03-25
Community

OpenAI GPT-5.4発表、100万トークンのコンテキストウィンドウとPC直接操作機能を搭載し発売1週間で1日5兆トークン処理を達成

OpenAIは3月5日、推論・コーディング・自律エージェント機能を統合した最新モデル「GPT-5.4 Thinking/Pro」をリリースしました。最大100万トークンのコンテキストウィンドウを備え、発売からわずか1週間で1日あたり5兆トー...
Community

NVIDIA、エンタープライズ向け自律型AIエージェント開発基盤「Agent Toolkit」をGTC 2026で発表

NVIDIAがGTC 2026で、自律型AIエージェント開発のためのオープンソースプラットフォーム「Agent Toolkit」を発表しました。Adobe、Salesforce、SAP、ServiceNowなど17社の大手ソフトウェア企業が...
Community

Anthropic、Claudeのメモリ機能を無料ユーザー全員に開放しChatGPT・Geminiからの移行ツールも提供開始

Anthropicは3月2日、これまで有料プラン限定だったClaudeのメモリ機能を無料ユーザーを含む全員に開放したと発表しました。同時にChatGPTやGeminiからの会話・記憶データをインポートできるツールも提供開始し、競合サービスか...
Community

中国MiniMaxのM2.5が週間1.87兆トークンで5週連続世界トップ、Claude Opus 4.6の1/20のコストで同等性能を実現

中国のAI企業MiniMaxが開発した「M2.5」モデルが、週間1.87兆トークンの呼び出し量で5週連続世界トップを記録しました。230億パラメータながらClaude Opus 4.6の約1/20のコストで、SWE-Benchで80.2%の...
2026-03-24
Community

OpenAI、GPT-5.4 Thinkingをリリース — 100万トークン対応でOSWorld人間超えの75%達成

OpenAIが2026年3月5日、新たな基盤モデル「GPT-5.4」を発表しました。最大100万トークンのコンテキストウィンドウを持ち、デスクトップ自動化ベンチマーク「OSWorld」で人間の72.4%を上回る75.0%を達成した初の汎用A...
Community

Anthropic、Claude Opus 4.6を静かにリリース — 100万トークン対応とメモリ機能を無料ユーザーにも開放

Anthropicが2026年2月5日にClaude Opus 4.6をリリースし、3月13日には100万トークンのコンテキストウィンドウを一般提供開始しました。これは約75万語、小説にして10冊分に相当する情報を1回のプロンプトで処理でき...
Community

Google、Gemini 3.1 Proを発表 — GPQA Diamond 94.3%で過去最高スコア、16ベンチマーク中13で首位

Google DeepMindが2026年2月19日、新たなフラッグシップモデル「Gemini 3.1 Pro」をリリースしました。大学院レベルの科学テスト「GPQA Diamond」で94.3%という過去最高スコアを記録し、16種類のベン...
2026-03-23
Community

OpenAI GPT-5.4発表、100万トークンコンテキストとネイティブPC操作で「エージェント時代」本格化

OpenAIは3月5日、最新の大規模言語モデル「GPT-5.4」を発表しました。Standard、Thinking、Proの3バリアントで展開され、最大105万トークンという同社史上最大のコンテキストウィンドウと、ネイティブのコンピュータ操...
Community

DeepSeek V3.2がGPT-5超えの推論性能を達成、エージェントファースト設計で1,800以上の環境に対応

中国のAI企業DeepSeekが「DeepSeek-V3.2」をリリースし、高計算バージョン「DeepSeek-V3.2-Speciale」がGPT-5やGemini-3.0-Proを複数の推論ベンチマークで上回りました。特にAIMEでは9...
Community

Xiaomi MiMo-V2-Proが正体判明、「DeepSeek V4」と誤認された1兆パラメータモデルの全貌

3月11日にOpenRouterに登場した謎の1兆パラメータAIモデル「Hunter Alpha」の正体が、XiaomiのAI部門MiMoによる「MiMo-V2-Pro」であることが判明しました。当初、その性能から「DeepSeek V4で...
2026-03-22
Community

OpenAI GPT-5.4が100万トークンコンテキストとネイティブPC操作機能を搭載、OSWorldで人間超えの75.0%を達成

OpenAIは3月5日、次世代フラッグシップモデル「GPT-5.4」をリリースしました。100万トークン(約75万語)のコンテキストウィンドウと、ネイティブのコンピュータ操作機能を搭載し、コンピュータ制御ベンチマーク「OSWorld」で人間...
Community

Google Gemini 3.1 ProがARC-AGI-2ベンチマークで77.1%を達成、前世代から2倍以上の推論性能向上

Google DeepMindは2026年2月19日、最新の大規模言語モデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。同モデルはARC-AGI-2ベンチマークで77.1%というスコアを達成し、前世代のGemini...
2026-03-21
Community

OpenAI GPT-5.4発表、100万トークンコンテキストとネイティブPC操作で人間超えの75%達成

OpenAIは3月5日、最新基盤モデル「GPT-5.4」を発表しました。API版で100万トークンという史上最大のコンテキストウィンドウを実現し、ネイティブのコンピュータ操作機能を初めて搭載したことで、コンピュータ操作ベンチマーク「OSWo...
Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%を達成、人間の平均スコア60%を大きく上回る

Google DeepMindが2月にリリースしたGemini 3.1 Proが、抽象的推論能力を測定するベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、フロンティアモデルの中でトップの座を獲得しました。 ARC-AGI-...
Community

Google Gemini 3.1 Pro発表、推論性能2倍以上で18ベンチマーク中12で首位を獲得

Google DeepMindは2月、推論能力を大幅に強化した「Gemini 3.1 Pro」を発表しました。新しい論理パターンを解く能力を測るARC-AGI-2ベンチマークで77.1%を達成し、前世代の3 Proから推論性能が2倍以上に向...
Community

Anthropic、Claudeメモリ機能を無料ユーザーに開放し他社AIからの移行ツールも提供

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料ユーザーを含む全ユーザーに開放しました。これまで有料プラン限定だった機能が無料化されたことに加え、ChatGPTやGeminiなど競合サービスからコンテキストを...
Official

Anthropic Claude 4.6シリーズが100万トークンコンテキストを標準価格で提供開始、長文処理のコスト障壁を撤廃

Anthropicは3月14日、Claude Opus 4.6およびSonnet 4.6の100万トークンコンテキストウィンドウを一般提供(GA)開始し、従来の長文プロンプト向け割増料金を撤廃したと発表しました。 これまでClaude A...
2026-03-20
Community

OpenAI、GPT-5.4を正式リリース — 100万トークンコンテキストとネイティブPC操作機能を搭載、GDPValで83%達成

OpenAIは3月5日、同社の最新フラッグシップモデル「GPT-5.4」を正式にリリースしました。標準版に加え、高性能版の「GPT-5.4 Pro」と推論特化型の「GPT-5.4 Thinking」を同時展開し、知識労働タスクを測定するGD...
Community

Google Gemini 3.1 Flash-Liteが登場:100万トークンあたり0.25ドルで従来比2.5倍の高速応答を実現

Googleが2026年3月3日、コストパフォーマンスを追求した新モデル「Gemini 3.1 Flash-Lite」をプレビュー版として公開しました。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルという低価...
Community

Alibaba Qwen 3.5 Smallシリーズ発表:0.8B〜9Bの4モデルでネイティブマルチモーダル対応、9BはGPT-5-Nanoを上回る性能

Alibaba CloudのQwenチームが2026年3月2日、エッジデバイス向けに最適化された「Qwen 3.5 Small」シリーズを発表しました。0.8B、2B、4B、9Bの4つのDense(密な)モデルで構成され、すべてのモデルがテ...
Community

LTX 2.3発表:220億パラメータで4K 50FPS動画と音声を同時生成、オープンソースで公開

Lightricksが動画生成モデル「LTX 2.3」をApache 2.0ライセンスのオープンソースとして公開しました。220億パラメータを持ち、4K解像度・50FPS・最大20秒の動画と音声を単一のフォワードパスで同時生成できる点が大き...
Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%を達成 — 主要16ベンチマーク中13でトップ、推論性能が2倍以上に

Googleは2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。同モデルは主要16ベンチマーク中13でトップスコアを記録し、特にARC-AGI-2テストでは77.1%という驚異的なスコアを達成...
Community

Anthropic、Claudeのメモリ機能を無料ユーザーにも開放 — ChatGPTからの乗り換えツールも提供、App Storeでトップに

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料ユーザーを含む全ユーザーに開放しました。これまで月額20ドルの有料プランでのみ利用可能だった機能が、無料で使えるようになります。 メモリ機能は2025年8月に...
Community

謎のAIモデル「Hunter Alpha」出現 — 1兆パラメータ、100万トークンコンテキストでDeepSeek V4との噂が浮上、正体はXiaomiのMiMo-V2と判明

3月11日、AIモデルAPIプラットフォームOpenRouterに「Hunter Alpha」と名付けられた謎のモデルが無料で公開され、開発者コミュニティを騒然とさせました。1兆パラメータ、100万トークンのコンテキストウィンドウ、推論機能...
2026-03-19
Community

OpenAI GPT-5.4正式リリース:105万トークンコンテキストとネイティブPC操作で「ワークフロー所有」時代へ

OpenAIは3月5日、ChatGPT、API、Codexの全プラットフォームでGPT-5.4を正式リリースしました。105万トークンという過去最大のコンテキストウィンドウと、スクリーンショットとキーボード・マウス操作でアプリケーションを直...
Community

Anthropic、Claude全ユーザーにメモリ機能を無料開放:ChatGPTからのインポートツールで競合ユーザー獲得を狙う

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料ユーザーにも開放しました。これまで月額20ドルの有料プラン限定だったこの機能により、すべてのClaudeユーザーが会話の文脈を複数セッションにわたって保持できる...
Community

謎のAIモデル「Hunter Alpha」がOpenRouterに出現:1兆パラメータ・100万トークン、DeepSeek V4か

3月11日、AIモデルプラットフォーム「OpenRouter」に「Hunter Alpha」と名乗る謎のAIモデルが匿名で登場し、開発者コミュニティで大きな話題を呼んでいます。1兆パラメータ、100万トークンのコンテキストウィンドウ、そして...
Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%・GPQA Diamondで94.3%を記録し16ベンチマーク中13で首位

Google DeepMindは2月19日、Gemini 3.1 Proのプレビュー版をリリースしました。同モデルは抽象推論ベンチマーク「ARC-AGI-2」で77.1%を達成し、わずか3ヶ月前のGemini 3 Proの記録を2倍以上上回...
2026-03-18
Community

OpenAI GPT-5.4がOSWorldベンチマークで75.0%を達成、人間の基準72.4%を史上初めて突破

OpenAIが3月5日にリリースしたGPT-5.4が、コンピュータ操作能力を測定するOSWorld-Verifiedベンチマークで75.0%のスコアを記録し、人間の基準値である72.4%を史上初めて上回りました。これはAIがデスクトップ環境...
Official

Microsoft 365 CopilotにAnthropic Claude Sonnet統合—マルチモデル時代の幕開けとOpenAI独占からの脱却

MicrosoftがMicrosoft 365 CopilotにAnthropicのClaude Sonnetモデルを直接統合したことが明らかになりました。これは企業向け生産性ツールにおける「マルチモデル時代」の到来を象徴する動きであり、長...
Community

Anthropic、Claudeのメモリ機能を全ユーザーに無料開放—ChatGPT・Geminiからのインポート機能も追加

Anthropicが、これまで有料プラン限定だったClaudeの「メモリ」機能を、無料ユーザーを含む全ユーザーに開放しました。さらに、ChatGPTやGeminiなど競合AIチャットボットからコンテキストをインポートできる新ツールも同時に発...
Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%、GPQA Diamondで94.3%を達成し16ベンチマーク中13項目でトップ

Google DeepMindが2月19日にリリースしたGemini 3.1 Proが、AI業界に大きな衝撃を与えています。抽象的推論能力を測定するARC-AGI-2ベンチマークで77.1%、大学院レベルの科学知識を問うGPQA Diamo...
Community

AnthropicがClaudeのメモリ機能を無料開放、ChatGPTからの乗り換えツールでApp Store首位を獲得

Anthropicは3月2日、AIアシスタント「Claude」のメモリ機能を無料プランのユーザーにも開放すると発表しました。同時に、ChatGPTなど他社AIからの会話履歴をインポートできるツールも提供開始し、その結果ClaudeはiOS ...
Community

Zhipu AIがAIエージェント専用設計の「GLM-5 Turbo」を発表、株価16%急騰

中国のAI企業Zhipu AI(Z.ai)は3月16日、AIエージェント専用に設計された大規模言語モデル「GLM-5 Turbo」を発表しました。汎用モデルをエージェント向けに後から調整する他社とは異なり、訓練段階からOpenClawタスク...
2026-03-17
Community

OpenAI、GPT-5.4をリリース——OSWorldベンチマークで75%を達成し人間の72.4%を初めて超越

OpenAIは3月5日、最新のフラッグシップモデル「GPT-5.4」をリリースしました。OSWorld-Verifiedベンチマークで75.0%の成功率を達成し、人間の72.4%を初めて上回ったことで、AIがコンピュータ操作タスクにおいて人...
Community

Meta、次世代モデル「Avocado」を5月に延期——内部テストでGoogle・OpenAI・Anthropicに劣後

Metaは次世代AIモデル「Avocado」(内部コードネーム)のリリースを、当初予定の3月中旬から5月以降に延期しました。内部テストで競合他社のモデルに対してパフォーマンスが劣っていることが判明したためです。 報道によると、Avocad...
Community

DeepSeek V4、1兆パラメータ・ネイティブマルチモーダルモデルが4月リリースへ延期

中国のAIスタートアップDeepSeekが開発中の次世代モデル「DeepSeek V4」のリリースが遅延しています。当初3月上旬に予定されていたリリースは、中国メディアWhale Labの報道によると4月にずれ込む見通しです。 DeepS...
Community

Claude Sonnet 4.6、100万トークンコンテキストを標準価格で一般提供開始

AnthropicがClaude Sonnet 4.6を2月17日にリリースし、3月13日からは100万トークンのコンテキストウィンドウが追加料金なしで一般提供(GA)となりました。入力100万トークンあたり3ドル、出力100万トークンあた...
Community

Google Gemini 3.1 Pro、ARC-AGI-2で77.1%達成——主要ベンチマーク16中13でトップに

Googleは2月19日、最新モデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。主要ベンチマーク16項目中13項目でトップスコアを記録し、価格はGemini 3 Proと同等を維持しています。 Gemini 3....
2026-03-13
Community

OpenAI GPT-5.4をリリース、100万トークンコンテキストとネイティブPC操作機能で「エージェント型AI」へ進化

OpenAIは2026年3月5日、同社史上最も高性能な汎用モデル「GPT-5.4」を正式リリースしました。100万トークンのコンテキストウィンドウ、ネイティブコンピュータ操作機能、フル解像度ビジョンを1つのモデルに統合し、長期的なタスクの計...
Official

Anthropic Claude Sonnet 4.6が実務ベンチマーク「GDPval-AA」で1,633ポイントを記録、全モデル中トップに

Anthropicは2026年2月中旬にリリースしたClaude Sonnet 4.6が、実務作業の遂行能力を測定するベンチマーク「GDPval-AA」においてELOスコア1,633ポイントを記録し、同社のフラッグシップモデルOpus 4....
Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%を達成、前世代の2倍以上のスコアで論理推論能力が飛躍

Googleは2026年2月19日、Gemini 3.1 Proをプレビュー版としてリリースしました。このモデルは、純粋な論理パターン認識と新規問題解決能力を測定するベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、前世代Ge...
Community

DeepSeek V4がついにリリース、1兆パラメータMoEモデルがコーディング特化で「ClaudeやChatGPTを内部テストで上回る」と報道

中国DeepSeekの「V4」モデルが3月初旬にリリースされました。当初3月初週の公開を予定していましたが若干の延期を経ての登場となります。コーディングと長文コンテキストを活用したソフトウェアエンジニアリングタスクに最適化されており、内部テ...
Community

MiniMax M2.5がSWE-Bench 80.2%を達成、「時給1ドルで100トークン/秒」の驚異的コスト効率で業界に衝撃

上海を拠点とするMiniMaxは2026年2月12日、香港IPOからわずか1ヶ月後に「MiniMax M2.5」をリリースしました。ソフトウェア開発能力を測定するSWE-Bench Verifiedで80.2%を達成し、コーディング、エージ...
2026-03-12
Community

OpenAI、GPT-5.4をリリース ー 100万トークンコンテキスト・ネイティブコンピュータ操作で「最も有能なフロンティアモデル」

OpenAIは2026年3月5日、同社の最新AIモデル「GPT-5.4」を正式にリリースしました。OpenAIは本モデルを「プロフェッショナルワーク向けの最も有能で効率的なフロンティアモデル」と位置づけており、標準版に加えて推論特化の「GP...
Community

Google、Gemini 3.1 Flash-Liteを発表―入力100万トークン25セント、Proの8分の1価格で大規模ワークロード向け

Googleは3月3日、大規模開発者ワークロード向けに最適化された新モデル「Gemini 3.1 Flash-Lite」をプレビュー版としてリリースしました。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルとい...
Official

Anthropic、Claude Sonnet 4.6をリリース ー コンピュータ操作で72.5%達成、開発者の70%が即座に移行

Anthropicは2026年2月17日、最新AIモデル「Claude Sonnet 4.6」をリリースしました。コーディング、コンピュータ操作、長文コンテキスト推論、エージェント計画、ナレッジワーク、デザインなど、あらゆるスキル領域で前モ...
Community

Google、Gemini 3.1 Proをリリース ー ARC-AGI-2で77.1%達成、前モデルの2倍以上の推論性能

Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。ARC-AGI-2ベンチマークで77.1%という驚異的なスコアを達成し、Gemini 3 Proの2倍以上の推論性能を実...
Community

DeepSeek V4、リリース間近か - 1兆パラメータMoEモデルも正式発表は延期続く

中国のAI企業DeepSeekが開発中の次世代モデル「DeepSeek V4」のリリースが待たれる中、複数の予定日が過ぎても正式発表には至っていません。当初の2月リリース予定、旧正月後の公開予測、さらに3月初旬の週末リリース予測も、いずれも...
2026-03-11
Community

Anthropic Claude Sonnet 4.6発表、100万トークンコンテキストをベータ提供しOpus級性能を5分の1の価格で実現

Anthropicは2026年2月17日、最新モデル「Claude Sonnet 4.6」をリリースしました。コーディング、コンピュータ操作、長文推論、エージェント計画など全面的に強化され、100万トークンのコンテキストウィンドウがベータ版...
Community

Google WorkspaceのGemini統合が大幅強化、Sheetsで複雑タスクの70.48%を成功処理

Googleは2026年3月10日、Docs、Sheets、Slides、DriveへのGemini統合を大幅に強化したと発表しました。特にSheetsでは、実際のスプレッドシート編集タスクを評価するSpreadsheetBenchベンチマ...
Community

OpenAI、GPT-5.4をリリース - 100万トークンコンテキストとネイティブPC操作機能で「エージェントAI」時代を本格化

OpenAIは3月5日、最新のフラッグシップモデル「GPT-5.4」を正式リリースしました。100万トークンのコンテキストウィンドウ、ネイティブなコンピュータ操作機能、そして33%向上した事実性を備え、ChatGPTとAPIの両方で利用可能...
Community

Claude Sonnet 4.6、エージェント性能ベンチマークGDPval-AAで首位に - ELO 1633でOpus超え、ただしトークン消費は4倍増

Anthropicの中位モデル「Claude Sonnet 4.6」が、実世界の知識ワークタスクを評価するGDPval-AAベンチマークでELO 1633を達成し、同社のフラッグシップモデルOpus 4.6やGoogleのGemini 3....
Community

DeepSeek V4発表間近、1兆パラメータのマルチモーダルAI - 一方でセキュリティ懸念から7カ国以上が政府端末での使用を禁止

中国のAI企業DeepSeekが、次世代フラッグシップモデル「DeepSeek V4」の発表を準備中であることが明らかになりました。1兆パラメータ規模で、テキスト、画像、動画、音声を同時に処理できるネイティブマルチモーダルアーキテクチャを採...
2026-03-10
Community

OpenAI、GPT-5.4を正式リリース——100万トークンコンテキストとネイティブPC操作で「エージェントAI」時代へ

OpenAIは2026年3月5日、同社の最新フラッグシップモデル「GPT-5.4」を正式リリースしました。100万トークンのコンテキストウィンドウ、ネイティブなコンピュータ操作機能、そしてツール検索による効率化を実現し、従来のチャットボット...
Community

MiniMax M2.5とGrok 4.20が2月にリリース―中国勢がSWE-Bench 80.2%で米国大手に迫る

2026年2月はAIモデルリリースの「ラッシュ月」となり、MiniMax M2.5、xAIのGrok 4.20、ByteDance Seed 2.0など、1か月だけで12の重要なアップデートが発表されました。中でも注目されているのが、中国の...
Community

Google、Gemini 3.1 Proをリリース——ARC-AGI-2で77.1%を達成しGemini 3 Proの2倍以上の推論能力に

Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をリリースしました。16のベンチマーク中13で首位を獲得し、特にARC-AGI-2で77.1%、GPQA Diamondで94.3%という驚...
Community

Anthropic、Claude Sonnet 4.6をリリース——Opus級の性能を5分の1の価格で実現し開発者から高評価

Anthropicは2026年2月17日、Claude Opus 4.6のリリースからわずか12日後に「Claude Sonnet 4.6」を公開しました。Opusに迫る性能をSonnet価格帯で実現し、コストパフォーマンスで業界に衝撃を与...
Community

DeepSeek V4がまもなくリリース——V3.2は価格半減で好評も160秒のレイテンシーと検閲問題が課題

中国のDeepSeekは、次世代モデル「V4」のリリースが間近に迫っています。Financial Timesによると、3月4日から始まる中国の「両会(全国人民代表大会・全国政治協商会議)」に合わせて3月第1週のリリースが予定されていましたが...
2026-03-09
Community

OpenAI GPT-5.4がネイティブPC操作と100万トークンを搭載、OSWorldベンチマークで人間超え75%を達成

OpenAIは2026年3月5日、ネイティブコンピュータ操作機能を初めて搭載した汎用AIモデル「GPT-5.4」をリリースしました。APIでは最大100万トークンのコンテキストウィンドウが利用可能となり、OpenAI史上最大の入力長を実現し...
Community

Anthropic Claude Sonnet 4.6リリース、コーディングとエージェント計画能力が大幅強化で開発者の60%がOpus 4.5より高評価

Anthropicは2026年2月17日、Claude Sonnet 4.6をリリースしました。コーディング、コンピュータ操作、長文脈推論、エージェント計画など全方位でアップグレードされ、100万トークンのコンテキストウィンドウがベータ版と...
Community

Google Gemini 3.1 Proが第三者評価で世界最高性能を達成、推論能力は2倍以上に向上

Google DeepMindは2026年2月19日、最新AIモデル「Gemini 3.1 Pro」をプレビュー版としてリリースしました。第三者評価機関Artificial Analysisのインテリジェンスインデックスで57点を獲得し、O...
Community

Apple SiriがGoogle Geminiで大幅強化、年間10億ドルの提携でiOS 26.4から提供開始

AppleとGoogleは2026年1月、次世代のApple Foundation ModelsをGoogleのGeminiモデルとクラウド技術を基盤として構築する複数年契約を締結しました。AppleはGoogleに年間約10億ドルを支払い...
2026-03-08
Community

GPT-5.4がネイティブコンピュータ操作に対応、OSWorld-Verifiedで人間超えの75%を達成

OpenAIは3月5日、同社史上最も高性能なフロンティアモデル「GPT-5.4」をリリースしました。今回のアップデートの目玉は、ネイティブでのコンピュータ操作機能です。スクリーンショットの認識、マウス・キーボード操作をAPI経由で直接実行で...
Official

Claude Sonnet 4.6発表、エージェントコーディング8.1%・コンピュータ操作11.1%向上でOpus超えの評価

Anthropicは2月17日、Claude Sonnet 4.6を発表しました。前世代のSonnet 4.5から2週間足らずでのリリースとなり、コーディング、コンピュータ操作、長コンテキスト推論、エージェント計画の全領域で性能が向上してい...
Community

Gemini 3.1 ProがARC-AGI-2で77.1%を達成、前世代の2倍以上でフロンティアモデル首位に

Google DeepMindは2月19日、Gemini 3.1 Proを発表しました。最大の注目点は、AIの汎用的推論能力を測るベンチマーク「ARC-AGI-2」で77.1%を達成したことです。これは前世代のGemini 3 Pro(31...
Community

DeepSeek V4発表、1兆パラメータでNvidia排除・Huaweiチップ最適化の中国製マルチモーダルAI

中国のAIスタートアップDeepSeekは、1兆パラメータのマルチモーダルモデル「DeepSeek V4」を3月第1週にリリースする予定です。テキスト、画像、動画を統合的に扱えるネイティブマルチモーダルモデルで、100万トークンのコンテキス...
2026-03-07
Community

DeepSeek V4が1兆パラメータで登場へ、SWE-Bench Verifiedで83.7%達成との報告

中国のAI企業DeepSeekが開発中の次期モデル「DeepSeek V4」が、ソフトウェアエンジニアリングベンチマーク「SWE-Bench Verified」で83.7%を達成したとの情報が流出しています。1兆パラメータという巨大なモデル...
Community

NVIDIAが自動運転AI「Alpamayo」をオープンソース公開、100億パラメータで「人間のように考える」推論能力を実現

NVIDIAはCES 2026において、自動運転車向けオープンソースAIモデル群「Alpamayo」を発表しました。業界初となるチェーン・オブ・ソート(連鎖的思考)推論機能を備えたビジョン言語アクション(VLA)モデルで、Mercedes-...
Community

Apple、Gemini搭載の新Siriを3月にiOS 26.4で公開——Googleと複数年契約を締結

AppleがGoogleと複数年にわたるAI分野での提携を正式発表しました。次世代の「Apple Foundation Models」はGoogleのGeminiモデルとクラウド技術をベースとし、新しいSiriは1.2兆パラメータのGemi...
2026-03-06
Community

Google Gemini 3.1 Pro、16ベンチマーク中13で首位を獲得―ARC-AGI-2で77.1%、推論能力が前世代の2倍以上に

GoogleのAI研究部門DeepMindは2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。同モデルは主要な16のベンチマークテストのうち13で首位を獲得し、特に抽象的推論や科学的知識を問うテス...
Official

Anthropic Claude Sonnet 4.6、Opus級の性能を1/5の価格で提供―SWE-benchで79.6%達成も文章品質への批判

Anthropicは2月17日、中価格帯AIモデル「Claude Sonnet 4.6」をリリースしました。コーディング能力を測定するSWE-bench Verifiedで79.6%を達成し、前バージョンのSonnet 4.5(77.2%)...
Community

DeepSeek V4、1兆パラメータのマルチモーダルモデルを今週リリース予定―Huaweiチップで訓練、GPT-5の1/50コストを実現か

中国のAIスタートアップDeepSeekが、1兆パラメータ規模のマルチモーダルモデル「V4」を今週中にオープンソースでリリースする見込みです。100万トークンのコンテキストウィンドウを備え、テキスト・画像・動画を統一的に処理できる能力を持つ...
Community

Apple Siri 2.0、GoogleのGemini搭載でiOS 26.4として3月リリース予定―画面認識と複数アクション連携が可能に

Appleは、GoogleのGeminiモデルを搭載した新しいSiri(通称「Siri 2.0」)をiOS 26.4で3月にリリースする予定です。画面に表示されているコンテンツを認識する「オンスクリーン認識」機能や、1回の自然言語リクエスト...
2026-03-05
Community

OpenAIがGPT-5.3 Instantをリリース、400Kトークン対応と「クリンジ削減」でChatGPTが大幅に自然な応答へ

OpenAIは3月3日、ChatGPTの新モデル「GPT-5.3 Instant」を全ユーザーに展開しました。コンテキストウィンドウが従来の128Kから400Kトークンへと3倍以上に拡大され、ハルシネーション(幻覚)が26.8%削減されたほ...
Community

Google Gemini 3.1 Proが主要ベンチマーク16中13で首位、ARC-AGI-2で77.1%・GPQA Diamondで過去最高94.3%を記録

Google DeepMindは2月19日、Gemini 3.1 Proをプレビュー公開しました。抽象推論ベンチマーク「ARC-AGI-2」で77.1%を達成し、Claude Opus 4.6の68.8%、GPT-5.2の52.9%を大きく...
Community

xAI「Grok 4.20」が独自の4エージェントアーキテクチャを導入、AIが議論してから回答する新方式でハルシネーション65%削減

xAIは2026年2月17日、独自の4エージェントアーキテクチャを採用した「Grok 4.20(Beta)」を公開しました。4つの専門エージェントが複雑な問題に対して異なる角度から議論を行い、合意形成した上で回答を生成するという新しいマルチ...
Community

AnthropicがClaude Opus 4.6とSonnet 4.6を相次いでリリース、主要AIラボの更新ペースが2〜3週間単位に加速

Anthropicは2月5日にClaude Opus 4.6を、続いて2月17日にClaude Sonnet 4.6をリリースしました。Opus 4.6はエージェントチーム機能とPowerPoint対応を追加し、タスク完了時間のベンチマーク...
2026-03-04
Community

Apple、AI搭載の新Siriを3月にiOS 26.4でリリース予定 - LLMベースへ刷新、Gemini連携も

Appleが長年の課題であったSiriの大幅刷新を2026年3月のiOS 26.4で実現する見通しです。従来のルールベースシステムから大規模言語モデル(LLM)ベースのアーキテクチャへと移行し、GoogleのGemini AIとの連携も含ま...
Community

DeepSeek V4が3月初旬リリース予定 - 1兆パラメータ・100万トークンコンテキストで自律コーディングを実現

中国のAI企業DeepSeekが開発する次世代モデル「DeepSeek V4」が、3月初旬にリリース予定であることがFinancial Timesの報道で明らかになりました。1兆パラメータ(アクティブ320億)のMixture of Exp...
Community

GPT-5.3-Codex発表 - 自らのトレーニングをデバッグした史上初の「自己構築型」AIモデル

OpenAIが2月5日、エージェント型コーディングモデルの最新版「GPT-5.3-Codex」を発表しました。自身のトレーニング実行をデバッグし、GPUクラスタのスケーリングを管理するなど、開発プロセスに自ら関与した史上初の「自己構築型」A...
Community

Claude Sonnet 4.6リリース - Opus級の性能を5分の1のコストで実現、SWE-bench 79.6%を達成

Anthropicが新モデル「Claude Sonnet 4.6」をリリースしました。フラッグシップモデルOpus 4.6の97〜99%のコーディング能力を、わずか5分の1のコストで提供するという驚異的なコストパフォーマンスを実現しています...
Community

Google Gemini 3.1 Proが16ベンチマーク中13で首位獲得、GPQA Diamond 94.3%でAI史上最高スコアを記録

Googleは2026年2月19日、次世代AIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。同モデルは主要な16のベンチマークのうち13で首位を獲得し、特にGPQA Diamond(大学院レベルの科学知識テスト)で...
2026-03-03
Community

中国テック大手5社が「春節AI戦争」、Alibaba 4.3億ドル・ByteDance高級車プレゼントで消費者争奪戦

午年の春節を迎えた中国で、Alibaba、Tencent、Baidu、ByteDanceなど大手テック企業が「春節AI戦争」と呼ばれる消費者獲得競争を繰り広げています。各社が数億ドル規模のマーケティング予算を投じ、AIチャットボットの普及を...
Community

Apple、1.2兆パラメータのGeminiを搭載した新SiriをiOS 26.4で3月リリース、年間10億ドルでGoogleと提携

AppleがGoogleの1.2兆パラメータAIモデル「Gemini」を搭載した完全刷新版Siriを、2026年3月のiOS 26.4で提供開始することが明らかになりました。Appleは年間約10億ドルをGoogleに支払い、現行のAppl...
Community

中国MiniMaxのM2.5がClaude Opus 4.6に匹敵、コストは20分の1でオープンソース公開

中国・上海のAIスタートアップMiniMaxが、AnthropicのClaude Opus 4.6に匹敵する性能を持つ「M2.5」をオープンソースで公開しました。2026年2月11日にHugging Faceで公開されたこのモデルは、コスト...
Community

ByteDanceの「Seedance 2.0」が映画レベルのAI動画生成を実現、2K解像度でネイティブ音声・リップシンク対応

ByteDanceが2026年2月8日、AI動画生成モデル「Seedance 2.0」を発表しました。最大2K解像度で1回の生成につき最大15秒の映像を出力でき、OpenAIのSoraやKuaishouのKlingを上回る性能と評されていま...
Community

Gemini 3.1 ProがAIME 2025で100%を達成、ARC-AGI-2は77.1%で前世代から2倍以上の推論性能向上

Google DeepMindが2026年2月19日、「Gemini 3.1 Pro」をリリースしました。数学推論ベンチマーク「AIME 2025」でコード実行を併用した際に100%という完璧なスコアを達成し、AI推論能力の新たなマイルスト...
2026-03-02
Community

Apple、Gemini搭載の新Siriが信頼性問題に直面、iOS 26.4から一部機能がiOS 26.5・27に延期の見込み

GoogleのGemini AIを搭載した新しいSiriが、内部テストで信頼性の問題に直面していることがBloombergの報道で明らかになりました。当初3月リリース予定のiOS 26.4に含まれるはずだった機能の一部が、iOS 26.5(...
2026-03-01
Community

NVIDIAがPhysical AIモデルを発表、Jensen Huang CEOが「ロボティクスのChatGPTの瞬間が来た」と宣言

NVIDIAのJensen Huang CEOがCES 2026の基調講演で「ロボティクスのChatGPTの瞬間が来た」と宣言し、現実世界を理解し、推論し、行動を計画できるPhysical AI(物理AI)モデルを発表しました。ロボットタク...
Community

Google DeepMindがGemini 3.1 Proを発表、ARC-AGI-2ベンチマークで77.1%を達成し推論性能が前世代の2倍以上に

Google DeepMindは2月19日、最新のAIモデル「Gemini 3.1 Pro」をプレビュー版として公開しました。新たな推論ベンチマーク「ARC-AGI-2」で77.1%のスコアを達成し、前世代のGemini 3 Proの31....
Official

AnthropicがClaude Sonnet 4.6を発表、OSWorldで72.5%を達成し人間レベルのコンピュータ操作能力に到達

Anthropicは2月17日、新たなAIモデル「Claude Sonnet 4.6」をリリースしました。コンピュータ操作能力を測定するOSWorldベンチマークで72.5%を達成し、人間のベースライン性能(約72%)と機能的に同等のレベル...
Community

OpenAIがGPT-5.3-Codexを発表、自らのトレーニングをデバッグした史上初の「自己開発」AIモデル

OpenAIは2月5日、同社史上最も高性能なエージェント型コーディングモデル「GPT-5.3-Codex」を発表しました。このモデルの最大の特徴は、自らの開発に関与した史上初のAIモデルであることです。開発チームは初期バージョンを使用してト...
Community

Inceptionが拡散型LLM「Mercury 2」を発表、毎秒1000トークン生成で従来モデルの5倍以上の速度を実現

AIスタートアップのInceptionは2月24日、世界最速の推論LLMと称する「Mercury 2」を発表しました。拡散ベースの言語モデル(dLLM)というまったく新しいアーキテクチャを採用し、毎秒約1000トークンの出力スループットを達...
2026-02-28
Community

Alibaba、Qwen3-Max-Thinkingを発表 - HLEで58.3%達成しGPT-5.2を13ポイント上回る、コストは約10分の1

Alibabaは2026年1月25日、Qwenシリーズのフラッグシップモデル「Qwen3-Max-Thinking」を発表しました。Humanity's Last Exam(HLE)ベンチマークで58.3%を達成し、GPT-5.2やGemi...
Official

Anthropic、金融研究特化のClaude Opus 4.6を発表、GPT-5.2を144 Eloポイント上回る性能

Anthropicが金融研究向けに最適化された新モデル「Claude Opus 4.6」を発表しました。企業データ、規制当局への届出書類、市場情報を分析し、従来は数日を要していた詳細な金融分析を自動化できるのが特徴です。 Bloomber...
Community

Google、Gemini 3.1 Proを発表、ARC-AGI-2で推論性能が2倍以上に向上

Google DeepMindが2026年2月19日、「Gemini 3.1 Pro」をリリースしました。Gemini 3シリーズの次世代モデルとして、複雑なタスク処理能力がさらに強化されています。Claude Opus 4.6、GPT-5...
Community

OpenAI、GPT-5.3-Codexを発表 - SWE-Bench Proで56.8%達成、サイバーセキュリティ分野で初の「高能力」認定

OpenAIは2026年2月5日、同社史上最も高性能なエージェント型コーディングモデル「GPT-5.3-Codex」をリリースしました。SWE-Bench Proで56.8%、Terminal-Bench 2.0で77.3%を達成し、業界最...
2026-02-27
Community

Claude Sonnet 5「Fennec」がSWE-Bench Verifiedで82.1%を達成、史上初の80%超え

概要 Anthropicが2月3日にリリースしたClaude Sonnet 5(コードネーム「Fennec」)が、コーディングベンチマークの金字塔であるSWE-Bench Verifiedで82.1%を記録し、初めて80%の壁を突破した。...
Community

Tavus Phoenix-4 がリアルタイム1080p/40fpsでAIアバター生成を実現

概要 Tavusが2月18日にPhoenix-4を発表した。ガウシアン拡散モデルに基づくこの新技術は、感情制御とアクティブリスニング機能を備えた頭肩AIアバターを1080p/40fpsでリアルタイム生成することを可能にし、会話型AI動画の新...
Community

Google Gemini 3.1 ProがARC-AGI-2で77.1%を達成、推論性能が倍増

概要 Googleが2月19日に公開したGemini 3.1 Pro Previewは、純粋な論理・問題解決テストであるARC-AGI-2で77.1%を記録し、前モデルGemini 3 Proの31.1%から2倍以上の推論性能向上を達成し...
Community

Claude Opus 4.6 がエージェントチームとPowerPoint統合、100万トークン対応

概要 Anthropicが2月5日にClaude Opus 4.6をリリースした。Opusクラスモデルとして初の100万トークンコンテキストウィンドウを搭載し、「エージェントチーム」機能とPowerPoint統合を導入。OpenAIのCod...
Community

OpenAI GPT-5.3-Codexをリリース、エージェント型コーディング特化モデル

概要 OpenAIが2月5日にGPT-5.3-Codexを発表した。エージェント型コーディングとソフトウェア開発に特化したこのモデルは、GPT-5.2-Codexより25%高速で、SWE-Bench ProとTerminal-Bench ...
Community

DeepSeek V4が2月中旬リリース予定、中国のAI競争が激化

概要 中国のAIスタートアップDeepSeekが、旧正月に合わせてV4のリリースを準備中。1兆パラメータ、100万トークンのコンテキストウィンドウを搭載し、西側競合他社の10〜40分の1の推論コストで80%以上のSWE-bench性能を目...
2026-02-26
Official

Anthropic、Claude Opus 4.6をリリース - エージェントチーム機能と100万トークンコンテキストを搭載

概要 Anthropicが2026年2月5日、最新フラッグシップモデル「Claude Opus 4.6」をリリースしました。新機能として「エージェントチーム」、100万トークンのコンテキストウィンドウ(ベータ版)、そしてPowerPoin...
Community

Anthropic「Claude Opus 4.6」発表──100万トークン対応とエージェントチームで知識労働の転換点へ

概要 Anthropicは2026年2月5日(米国時間)、最新フラグシップモデル「Claude Opus 4.6」を発表しました。100万トークンのコンテキストウィンドウ、複数AIエージェントが協調作業を行う「エージェントチーム」機能、そし...
Community

Tavus、Phoenix-4をリリース - リアルタイム感情制御可能な生成ビデオモデル

概要 Tavusが2026年2月18日、リアルタイム人物レンダリングモデル「Phoenix-4」をリリースしました。感情状態の生成・制御、アクティブリスニング行動、連続的な表情変化を統合した初のリアルタイムモデルとして、対話型AIアバター...
Community

OpenAI、GPT-5.3-Codexをリリース - ソフトウェア開発のベンチマークリーダーに

概要 OpenAIが2026年2月5日、最新のコーディング特化モデル「GPT-5.3-Codex」をリリースしました。SWE-Bench Proでトップ性能を達成し、史上初めて「自身の開発に貢献した」AIモデルとして、再帰的自己改善の新時...
Community

OpenAI、GPT-5.3-Codexをリリース──自己開発に貢献した初のAIモデル、ソフトウェア開発の新時代へ

概要 OpenAIは2026年2月5日、ソフトウェア開発に特化したエージェント型コーディングモデル「GPT-5.3-Codex」をリリースしました。SWE-Bench Proでトップ性能を達成し、自身の開発プロセスに貢献した初めてのAIモデ...
Community

Google、Gemini 3.1 Proをリリース - ARC-AGI-2で77.1%を達成し推論性能2倍以上に

概要 Google DeepMindが2026年2月19日、最新モデル「Gemini 3.1 Pro」をリリースしました。ARC-AGI-2ベンチマークで77.1%という驚異的なスコアを達成し、前バージョンの2倍以上の推論性能向上を実現。...
Community

Google「Gemini 3.1 Pro」発表──ARC-AGI-2で77.1%達成、推論性能は前世代の2倍超に

概要 Googleは2026年2月19日、最新モデル「Gemini 3.1 Pro」をプレビュー版として発表しました。AIの真の推論能力を測定するARC-AGI-2ベンチマークで77.1%を達成し、前バージョン(31.1%)から2.5倍以上...
2026-02-25
Community

AnthropicがClaude Opus 4.6をリリース、AIランキングで首位獲得

概要 Anthropicが2026年2月5日にリリースしたClaude Opus 4.6が、Artificial Analysisランキングで1位を獲得した。OpenAIのGPT-5.2および前バージョンのClaude Opus 4.5を...
Community

AnthropicがClaude Opus 4.6をリリース、AIランキングで首位獲得

概要 Anthropicは2026年2月5日、フラッグシップモデルClaude Opus 4.6をリリースした。同モデルはArtificial Analysisランキングで1位を獲得し、OpenAIのGPT-5.2およびGoogle Ge...
Community

OpenAIがFrontierプラットフォームを企業向けに提供開始

概要 OpenAIは、AIエージェントを新入社員のように導入・管理できるエンタープライズプラットフォーム「Frontier」を発表した。オンボーディング、権限設定、パフォーマンス評価機能を搭載し、Accenture、BCG、Capgemi...
Community

TavusがPhoenix-4ビデオ生成モデルをリリース

概要 Tavusが2026年2月19日に「Phoenix-4」をリリースしました。ガウシアン拡散ベースのモデルで、1080p・40fpsのリアルタイムアバター生成が可能です。感情制御や能動的傾聴行動に対応し、AIビデオ通話の新時代を切り開...
Community

TavusがPhoenix-4ビデオ生成モデルをリリース

概要 Tavusは、ガウシアン拡散ベースのモデル「Phoenix-4」をリリースした。1080p・40fpsのリアルタイムアバター生成が可能で、感情制御や能動的傾聴行動に対応する、感情的知性を備えた初のリアルタイム人間レンダリングモデルで...