LLM推論を20%高速化｜Sakana AIとNVIDIAがTwELL公開

学術日本 Sakana AIブログ 05/09 11:02

Sakana AIとNVIDIAの共同研究「Sparser, Faster, Lighter Transformer Language Models」は、LLMのフィードフォワード層で95%以上のニューロンが任意のトークンに対して不活性であるという事実を出発点としている。人間の脳が必要なニューロンだけを活性化させるように、LLMも本質的にスパースに振る舞う。しかし、既存のGPUは密な行列演算を前提に設計されており、非構造的なスパース性は不規則なメモリアクセスを生み、結果として「計算量を減らすほど遅くなる」という逆説を生んでいた。

研究チームは「GPUをスパース性に合わせる」のではなく「スパース性をGPUに合わせて再成形する」というアプローチを採った。中核技術のTwELL（Tile-wise ELLPACK）は、既存の最適化されたタイル型matmulカーネルに直接統合できるパッキング形式で、99%の高スパーストークンを高速パスに、稀に現れる高密度トークンを密行列バックアップに動的にルーティングするハイブリッド構造を持つ。

加えて、複数のスパース行列積を融合するカスタムCUDAカーネルを開発し、スループット最大化と活性化サイズ圧縮を同時に実現した。10億パラメータ規模のスパースLLMの学習・推論で20%超の速度向上と、それ以上のピークメモリ・エネルギー削減を実測している。

成果はICML 2026で発表予定で、論文・技術ブログ・実装コードがすべて公開されている。推論コストと消費電力がAI事業の主要コスト要因となる中、既存のGPUインフラ上で即座に検証できるオープンソース実装は、運用側の意思決定材料として実用価値が高い。

LLM推論を20%高速化｜Sakana AIとNVIDIAがTwELL公開の本文内説明図 — 図解: スパース性をGPUに合わせて再成形する - TwELLが解いた『減らすほど遅くなる』の逆説と、20%超高速化の判断材料

押さえるポイント

LLMのニューロンは95%以上が不活性という現実を逆手に取った設計
10億パラメータ規模で推論速度20%超向上、メモリ・電力も削減
ICML 2026採択済みでGPUカーネルとコードをオープンソース公開

5W1Hでサクッと理解 誰が Sakana AIとNVIDIA 
 何を TwELL発表 
 いつ 2026年5月9日 
 どこで Sakana AIブログ 
 なぜ GPUとスパース性整合 
 どのように ハイブリッド行列形式 

何が起きたか

要点Sakana AIとNVIDIAが共同で、LLMのフィードフォワード層のスパース性をGPUに適した形に再成形する新フォーマット「TwELL（Tile-wise ELLPACK）」とカスタムCUDAカーネルを発表し、10億パラメータ規模で20%超の推論高速化を実証した。

3つの視点で読む

開発現場

「計算量を減らすと遅くなる」というスパース性の逆説を、GPUのタイル型matmulカーネルに直接統合できるTwELLフォーマットで解消した。複数のスパース行列積を融合するCUDAカーネルで、活性化サイズの圧縮と実行パスの非分岐化を両立している。

事業判断

10億パラメータ規模で20%超の速度向上と、それ以上のピークメモリ・エネルギー削減を実測値として提示したため、推論コスト構造を再評価する具体的な材料が揃った。コードがGitHubで公開されており、自社スタックで直接ベンチマークできる。

リスク・ルール

AI消費電力の社会的関心が高まる中、同一精度で電力削減を達成する実装が査読付き会議で示された。データセンター電力や脱炭素目標との整合に使える技術選択肢として、調達・運用側が参照できる一次情報が増えた。

追い風と向かい風

追い風を受ける側

Sakana AI / NVIDIAICML 2026採択の共同研究で、スパースLLM高速化のハードウェア・ソフト協調設計のリファレンスを押さえた
推論コスト削減を狙う事業者10億パラメータ規模で20%超の速度向上が実証済みで、オープンソースで即検証できる
GPU保有の研究機関・開発者既存のタイル型matmulカーネルに統合可能な設計で、大規模な書き換えなしに適用できる

向かい風を受ける側

非構造スパース性を前提にした既存最適化ライブラリGPUの不規則メモリアクセス問題を根本から避ける設計が登場し、アプローチの優位性が相対的に低下する
密行列前提の推論スタックのみを提供するベンダーハイブリッドスパース実装が実用ラインに入り、同一精度・低コスト構成との比較対象になる

今やるべきこと

技術判断 確認する公開カーネルが自社で使うGPU世代・CUDAバージョン・モデルサイズで動作するか、対応範囲をREADMEと論文で確認する

事業判断 比較する現行推論スタックのトークンあたりコスト・電力と、TwELL適用時の20%速度向上を自社ワークロードで比較する条件を定義する

実装・検証 試す GitHubのsparser-faster-llmsリポジトリをクローンし、自社の10億パラメータ級モデルでスループット・ピークメモリ・エネルギーを測る

時系列タイムライン

2026年5月9日 Sakana AIがNVIDIAとの共同研究『Sparser, Faster, Lighter Transformer Language Models』をブログで発表。コードをGitHubで公開
2026年内 ICML 2026で本研究を発表予定
今後 10億パラメータ規模以上のモデルへの適用拡大と、他GPU世代での再現検証がコミュニティで進む段階へ