何が新しいのか
本研究「LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws」は、LLMの訓練をシャノン・ハートレー定理に基づく雑音通信路上の情報伝送として定式化した。モデルパラメータをチャネル帯域幅、訓練トークンを信号電力に対応付けることで、学習信号と内在ノイズの相互作用を明示的に捉える。
従来のべき乗則は単調改善を前提としていたため、計算量を増やしているのに性能が落ちる「破滅的過学習」や「量子化による劣化」を説明できなかった。本論文はこれをSNR不足下でのノイズ増幅と解釈し、単調改善からU字型劣化への転移を理論的に導出する。
検証範囲と外挿性能
検証はPythiaおよびOLMo2を対象に、ガウスノイズ・量子化・数学/QA/コードのSFTという摂動条件で行われた。Shannon Scaling Lawは古典的なスケーリング則および近年の摂動考慮型スケーリング則と比較して高いR²を達成し、先行手法が捉え損ねていた損失盆地(loss basin)も再現したと報告されている。
外挿性能の指標として、6.9B以下のPythiaモデルかつ180B以下のトークンで学習したモデルから、未見の12Bモデル・307BトークンをプールR²=0.847で予測した点が示されている。単調ベースラインはこの外挿で崩壊するとされ、SNR枠組みの実用的な含意が大きい。
日本の実装現場への含意
国内で基盤モデルを事前訓練するチーム、量子化・蒸留で推論コストを下げるチーム、ドメインSFTを行うチームのいずれもが、「とにかくスケールする」戦略の限界点をSNRという観測可能な変数で扱える。論文はICML 2026採択済みであり、原典をarXivで確認したうえで自社の摂動実験ログと突き合わせる作業が現実的な次の一歩となる。