SLMが32B LLM超え｜単一パスで24%精度向上

「Select to Think (S2T)」は、SLM（小型言語モデル）の推論能力をLLMに依存せず高める手法として提案された。従来、SLMとLLMの性能差を埋めるには、推論の分岐点でLLMを呼び出してトークンを生成させる方式か、LLMの生成分布をSLMに模倣させる標準的な蒸留が主流だった。前者は外部API呼び出しによるレイテンシとコストを招き、後者はSLMの容量制約で精度が頭打ちになる課題があった。

論文の核心は「局所十分性（local sufficiency）」の発見にある。推論の分岐点において、LLMが最終的に選ぶトークンは、SLMがtop-1で選べなくとも、SLMのtop-K予測内に高確率で含まれている。具体的には1.5BのSLMのtop-8候補が、32B LLMの選択を95%の確率で捕捉する。この事実は、LLMの役割を「開放的な生成」から「SLMが出した候補へのランキング付け」へと再定義する根拠になる。

この再定義により、蒸留の監督信号は連続的な分布模倣から離散的な候補ランキングへと単純化される。S2T-LOCALはこの選択ロジックをSLMに蒸留し、推論時にLLMを呼ばずにSLM自身が再ランキングを行う。結果、複数ベンチマークでgreedy decodingを平均24.1%改善し、8パスの自己整合性（self-consistency）と同等の精度を単一パスで達成した。

実務的な含意は明確である。推論コスト・レイテンシ・外部データ送信の3つの制約を同時に持つエッジ・オンプレ・閉域環境において、SLM単独運用の精度的正当性が定量的に補強された。日本の開発現場でも、オンプレ要件の強い業種でのAI導入判断材料となる。

SLMが32B LLM超え｜単一パスで24%精度向上の本文内説明図 — 図解: 局所十分性の仕組み - 1.5B SLMのtop-8候補が32B LLMの選択を95%捕捉し、推論時のLLM

押さえるポイント

1.5BのSLMの上位8候補が32B LLMの選択を95%カバーする事実を実証
S2T-LOCALはgreedy decodingを平均24.1%改善、単一パスで8パス同等精度
LLMの役割を「生成」から「候補選択」へ転換し蒸留信号を単純化

5W1Hでサクッと理解 誰が 論文著者 
 何を S2T手法を提案 
 いつ 2026年4月30日 
 どこで arXiv 
 なぜ SLMの推論力向上 
 どのように 候補選択の蒸留 

何が起きたか

要点arXivで公開された論文「Select to Think (S2T)」が、SLMの上位K候補にLLMの選択が高確率で含まれる「局所十分性」を実証し、選択ロジックをSLMに蒸留することで推論時のLLM依存を排除する手法を提案した。

3つの視点で読む

開発現場

従来の蒸留はSLMがLLMの生成分布を模倣しきれず頭打ちになっていたが、S2Tは監督信号を「top-K候補のランキング」という離散問題に置き換える。1.5BのSLMのtop-8で32B LLMの選択を95%捕捉できるという実測値が、容量制約を回避できる設計根拠を与える。

事業判断

推論時にLLM APIを呼ばない構成で8パス自己整合性と同等精度が出るため、GPU時間・API課金・レイテンシの3要素が同時に下がる。エッジ・オンプレ・組込み用途でSLM単独運用の選択肢が具体的なベンチマーク数値付きで提示された。

リスク・ルール

外部LLM API呼び出しを排除できることは、データを外部送信せず閉じた環境で高精度推論を回す要件（医療・金融・防衛・自治体など）に直接効く。社会的含意として、クラウドLLMに依存しないAI活用の技術的正当性が1つ増えた。

追い風と向かい風

追い風を受ける側

SLMを開発・運用する組織1.5Bクラスでも単一パスで自己整合性相当の精度が出る経路が示され、軽量モデルの採用根拠が強化される
エッジ・オンプレAI事業者推論時にLLM呼び出しが不要なため、オフライン・閉域環境で高精度推論を提供できる
推論コスト削減を進める開発者8パス自己整合性と同等精度を単一パスで得られ、GPU時間とレイテンシを同時に削減できる

向かい風を受ける側

推論時LLM呼び出しに依存するハイブリッド構成divergence点でLLMを呼ぶ方式の優位性が、S2T-LOCALの単一パス性能によって相対的に低下する
大規模モデル推論APIの従量課金収益蒸留で選択ロジックを内在化できるなら、推論フェーズでのLLM呼び出し回数が構造的に減少する

今やるべきこと

技術判断 確認する自社の推論パイプラインで現在LLM呼び出しを行っている箇所を洗い出し、top-K候補選択で置換可能な分岐点を特定する

事業判断 定義する SLM単独運用のPoC成功条件を、精度（greedy比改善率）・単一パス推論コスト・LLM API削減額の3軸で定義する

実装・検証 測る自社タスクで1.5Bクラスと32BクラスのSLM top-K hit rateを測り、論文の95%@top-8が再現するかを切り分ける

時系列タイムライン

それ以前 SLMとLLMの精度差を埋めるため、推論時LLM呼び出しや標準蒸留が用いられるがレイテンシと容量制約が課題だった
2026年4月30日 arXivに「Select to Think: Unlocking SLM Potential with Local Sufficiency」が公開
2026年4月30日 1.5B SLMのtop-8が32B LLMの選択を95%捕捉する実証結果と、S2T-LOCALによる平均24.1%改善が報告される