Industry & Business Community 2026-05-08 Source →

Cloudflare、独自推論エンジン「Infire」と重み圧縮技術「Unweight」でグローバルLLMインフラを構築——H100上でvLLMより最大7%高速

Cloudflareは、LLM（大規模言語モデル）推論をグローバルネットワーク全体で分散実行する高性能インフラを発表しました。独自開発の推論エンジン「Infire」と、モデルの重みを15〜22%圧縮する「Unweight」技術を組み合わせることで、NVIDIA H100 GPU上でvLLM比最大7%高速な推論を実現しています。すでにMoonshootのKimi K2.5をWorkers AIに統合しており、商用サービスへの展開も始まっています。

同社によると、TurboQuantの設計上の特徴は「Disaggregated Prefill（プリフィルとデコードの分離）」と呼ばれるアーキテクチャにあります。従来の推論システムでは、入力トークンの前処理（プリフィル）と出力トークンの生成（デコード）が同一のコンピュートリソースを奪い合う構造でしたが、Cloudflareはこれを分離してリソース効率を高めています。Hacker Newsでは「この実装詳細を知りたい」という技術者からのコメントが多数寄せられ、エッジでのAI推論の可能性を論じるスレッドが盛況となりました。

r/devopsでは「AWS BedrockやAzure AI Studiosへの対抗馬」として注目を集めており、低レイテンシ用途への適性を評価するコメントが多数見られます。X上でも「CloudflareがAI推論市場に本格参入」として話題になり、エッジコンピューティングとAIの融合を評価する声が広がっています。

Cloudflareのネットワークは世界330都市以上に展開されており、このインフラが本格稼働すれば、ユーザーから地理的に近いノードでAI推論が行われることによる低レイテンシが実現できます。クラウド大手との差別化軸としてエッジAIを明確に打ち出した同社の動きは、LLM推論の商用市場における競争をさらに加速させそうです。

Cloudflare、独自推論エンジン「Infire」と重み圧縮技術「Unweight」でグローバルLLMインフラを構築——H100上でvLLMより最大7%高速

関連リンク