AI技術スタートアップのSubquadraticは、1200万トークンのコンテキストウィンドウ対応・既存の標準実装であるFlashAttentionより52倍高速・コスト95%削減という驚異的な性能を主張する新型LLM(大規模言語モデル)「SubQ」を発表しました。同社は直前に2900万ドル(約43億円)の資金調達を完了しており、独自の「完全サブクワドラティック疎注意(スパース・アテンション)」アーキテクチャを採用していると説明しています。
SubQが採用するサブクワドラティック(二乗以下の計算量)アーキテクチャは、従来のトランスフォーマーモデルが抱える計算量の問題を根本から解決しようとするアプローチです。標準的なアテンション機構はシーケンス長の二乗に比例して計算コストが膨らむため、コンテキストの拡大に限界があります。Subquadraticはこれをスパースなアテンション(疎な注意機構)に置き換えることで、1200万トークンという圧倒的な長さのコンテキストを現実的なコストで処理できると主張しています。同社によると、FlashAttentionと比較して52倍の速度向上とコスト95%削減が可能とのことです。
ただし、業界の反応は慎重を超えて懐疑的とも言えます。X上では「史上最大のLLM革新か、それともAI版Theranos(注:誇大広告で知られた医療スタートアップの名前を引用した批判)か。独立した検証を待つべきだ」という投稿が広く拡散されました。r/singularityでは「1200万トークンのクレームは再現可能なベンチマークが公開されるまで評価を保留」との意見が主流となっており、Hacker Newsでも「先行するSSM(状態空間モデル)系の革新的手法がことごとく実用化で頭打ちになってきた歴史を踏まえ、慎重に評価すべき」という議論が活発です。
AIの性能競争では、発表と実力の間に乖離があるケースは珍しくありません。SubQの主張が本物であれば、LLM業界のインフラコスト構造を根底から覆す可能性を持っています。一方で、独立した第三者による再現検証が行われるまでは、その評価を確定させるのは時期尚早と言えそうです。