臨床LLMは精度より安全性で評価せよ｜RAGでも過信残存

この研究は、臨床LLMを安全に使うための前提を根本から問い直す内容になっている。従来、モデル規模や文脈長、検索の複雑度、推論時計算を増やせば精度が上がり、精度が上がれば安全性も上がるという暗黙の期待があった。しかし医療では、平均精度よりも少数の「確信をもった重大エラー」が患者アウトカムを左右する。

研究チームは、この問題を測定するためのフレーム「SaFE-Scale」と、放射線領域200問の安全性評価ベンチマーク「RadSaFE-200」を提示した。臨床医が定義したクリーンエビデンス・コンフリクトエビデンス、そして高リスクエラー・安全でない回答・エビデンス矛盾といったオプションレベルのラベルが付与されている。

34のローカルLLMを、ゼロショット、クリーンエビデンス、コンフリクトエビデンス、標準RAG、エージェンティックRAG、最大コンテキストの6条件で比較した結果、クリーンエビデンス条件だけが平均精度を73.5%から94.1%へ押し上げ、高リスクエラーを12.0%から2.6%、矛盾を12.7%から2.3%、危険な過信を8.0%から1.6%まで下げた。

一方で標準RAGおよびエージェンティックRAGは、この安全性プロファイルを再現できなかった。エージェンティックRAGは標準RAGより精度と矛盾では改善したが、高リスクエラーと危険な過信は依然として高水準に残った。最大コンテキストプロンプトはレイテンシを増やしたが安全性ギャップを埋めず、推論時計算の追加も限定的な効果にとどまった。

ワーストケース分析では、臨床的に重大なエラーが少数の質問に集中していた。安全性は規模拡大の副産物ではなく、エビデンス品質、検索設計、コンテキスト構築、集合的な失敗挙動によって形作られる配備特性だと結論づけられている。

臨床LLMは精度より安全性で評価せよ｜RAGでも過信残存の本文内説明図 — 図解: 精度は伸びても、安全性は伸びない - 臨床LLMで分岐する2本のスケーリング則と、調達側が要求すべき独立指標

押さえるポイント

クリーンエビデンスで精度73.5→94.1%、高リスクエラー12.0→2.6%に低減
標準RAG・エージェンティックRAGはクリーン条件の安全性を再現できず
最大コンテキストや推論時計算の追加は安全性ギャップを埋めなかった

5W1Hでサクッと理解 誰が arXiv投稿研究チーム 
 何を 安全性と精度の分離を実証 
 いつ 2026年5月6日 
 どこで arXiv 
 なぜ 医療AIの安全前提を検証 
 どのように 34LLMを6条件比較 

何が起きたか

要点arXivで公開された研究が、34の臨床LLMを6条件で比較し、精度向上と安全性向上が別のスケーリング則に従うこと、RAGや長文脈プロンプトでは高リスクエラーと過信が解消されないことを実証した。

3つの視点で読む

開発現場

精度と安全性が別指標として分離された。エビデンス品質・検索設計・コンテキスト構築が安全性を決める設計変数であり、モデル規模や推論時計算の増加では代替できないことが34モデルの実測で示された。

事業判断

医療AI調達側はベンチマーク精度だけでは安全性を保証できない。RAG採用済みシステムでも高リスクエラーと過信が残るため、ベンダー選定基準に高リスクエラー率・過信率・矛盾率を独立指標として組み込む根拠ができた。

リスク・ルール

少数の質問にクリティカルエラーが集中するという知見は、平均精度ベースの承認審査では臨床リスクを捕捉できないことを意味する。ワーストケース評価とエビデンス矛盾耐性を評価プロトコルに組み込む技術的根拠になる。

追い風と向かい風

追い風を受ける側

エビデンスキュレーションを提供する事業者クリーンエビデンスの投入が安全性改善に最も寄与したため、医学文献の精査・整形を担う事業価値が上がる
安全性評価ベンチマーク開発者RadSaFE-200のように高リスクエラー・過信・矛盾をラベル化する評価基盤の需要が明示された
ローカルデプロイ志向の医療機関34のローカルLLMで比較可能なフレームが示され、自施設での評価が実施しやすくなる

向かい風を受ける側

大規模モデル一辺倒の売り込みモデル規模・コンテキスト長・推論時計算の拡大では安全性が自動的に改善しないことが実証された
標準RAG/エージェンティックRAGだけで安全性を訴求する製品クリーンエビデンス条件の安全性プロファイルを再現できず、高リスクエラーと過信が残存した
平均精度のみを審査指標にする枠組みクリティカルエラーが少数質問に集中するため、平均値で臨床リスクを見逃す

今やるべきこと

技術判断 確認する自社の臨床LLM評価に高リスクエラー率・過信率・エビデンス矛盾率が独立指標として含まれているかを確認する

事業判断 定義する調達・契約時の合否条件を平均精度ではなくワーストケース指標（高リスクエラー率、過信率）で定義する

実装・検証 測る自社RAG構成でクリーンエビデンス条件と標準RAG条件の安全性差分（高リスクエラー率・過信率）を測り、ギャップを切り分ける

時系列タイムライン

2026年5月6日 arXivに論文『Safety and accuracy follow different scaling laws in clinical large language models』が公開
同日 SaFE-Scaleフレームワークと放射線評価ベンチマークRadSaFE-200(200問)を提示
同日 34のローカルデプロイLLMを6条件で比較した結果を公表