← 2026-03-20
Open Source Community 2026-03-20 Source →

NVIDIAがllama.cppとOllamaを最適化:RTX PCでトークン生成が最大35%高速化、GPUサンプリングで精度も向上

NVIDIAがCES 2026で、オープンソースAIツールllama.cppとOllamaの最適化アップデートを発表しました。NVFP4およびFP8量子化、GPUトークンサンプリング、並行処理の改善、メモリ管理の最適化により、llama.cppではNVIDIA GPU上でMixture of Experts(MoE)モデルのトークン生成スループットが35%向上、OllamaではRTX PC上で30%の高速化を実現しています。

GPUトークンサンプリングでは、TopK、TopP、Temperature、minK、minP、マルチシーケンスサンプリングなど複数のサンプリングアルゴリズムをGPUにオフロードすることで、応答の品質・一貫性・精度を改善しながらパフォーマンスも向上させています。また、並行CUDAストリームのサポート(--CUDA_GRAPH_OPT=1フラグで有効化)により、モデル推論が高速化されました。llama.cppにはLLMの読み込み時間を短縮する改善も含まれており、追加アップデートは1月後半に提供予定です。これらの最適化はLM Studioの次回アップデートや、MSI AI Robotなどのエージェントアプリにも順次適用されます。

Redditでは「ローカルLLM勢に朗報」として歓迎の声が多数上がっており、r/LocalLLaMAコミュニティで活発な議論が行われています。Hacker Newsでも「NVIDIAのオープンソースコミットメントが継続しており、CUDAロックインからの変化の兆し」と評価されています。

関連リンク