Cloudflareは、LLM(大規模言語モデル)推論をグローバルネットワーク全体で分散実行する高性能インフラを発表しました。独自開発の推論エンジン「Infire」と、モデルの重みを15〜22%圧縮する「Unweight」技術を組み合わせることで、NVIDIA H100 GPU上でvLLM比最大7%高速な推論を実現しています。すでにMoonshootのKimi K2.5をWorkers AIに統合しており、商用サービスへの展開も始まっています。
同社によると、TurboQuantの設計上の特徴は「Disaggregated Prefill(プリフィルとデコードの分離)」と呼ばれるアーキテクチャにあります。従来の推論システムでは、入力トークンの前処理(プリフィル)と出力トークンの生成(デコード)が同一のコンピュートリソースを奪い合う構造でしたが、Cloudflareはこれを分離してリソース効率を高めています。Hacker Newsでは「この実装詳細を知りたい」という技術者からのコメントが多数寄せられ、エッジでのAI推論の可能性を論じるスレッドが盛況となりました。
r/devopsでは「AWS BedrockやAzure AI Studiosへの対抗馬」として注目を集めており、低レイテンシ用途への適性を評価するコメントが多数見られます。X上でも「CloudflareがAI推論市場に本格参入」として話題になり、エッジコンピューティングとAIの融合を評価する声が広がっています。
Cloudflareのネットワークは世界330都市以上に展開されており、このインフラが本格稼働すれば、ユーザーから地理的に近いノードでAI推論が行われることによる低レイテンシが実現できます。クラウド大手との差別化軸としてエッジAIを明確に打ち出した同社の動きは、LLM推論の商用市場における競争をさらに加速させそうです。