今日のAIトレンド|エージェントの安全と推論コストが同時に動いた
今日の要点
編集判断で選び抜いた 8 本。
30 秒で読むなら
今日の AI 動向を 1 行ずつで把握。各項目をクリックすると元記事に飛びます。
- NVIDIAがスキル検査ツールを公開
エージェント用スキルを導入前に16カテゴリ64種で検査するSkillSpectorをOSS公開、1日809スター増。
- 医療AIを端末内で完結
患者データをクラウドに送らず端末内で抽出・匿名化するOpenMedが急上昇、Apple Silicon対応で高速化。
- 推論の文脈再計算を削るOSS
KVキャッシュを別プロセスで保存・再利用するLMCacheが1日246スター増。
- 米政府がAnthropicに提供停止を指示
輸出管理でFable 5/Mythos 5の全外国籍利用者向け提供を即時無効化。
- 推論チップの再編が加速
AWSがCerebrasと提携、NVIDIAはGroqを約200億ドルで取得し推論基盤を強化。
- エージェントAIの実運用成果
Rocket CloseがSupercharger運用で入電を30%削減、基盤はAWSのStrands。
- Claude Codeに全社モデル統制
管理者が許可したモデル以外を全社で使わせない設定をv2.1.175で追加。
- エージェント運用の費用対効果指標
業界初のAgentPerfでGB300 NVL72がH200比で大幅な効率改善。
エージェントを「動かす前」に守る仕組みが揃いはじめた
今日はエージェント運用の安全側に、検査・統制・端末内処理という3つの実装が同時に出た。
NVIDIAがAIエージェント用「スキル」を導入前にチェックするSkillSpectorをOSS公開した。プロンプト注入・データ持ち出し・権限昇格・依存元由来の汚染など16カテゴリ64種類のパターンを、高速な静的解析と任意のLLMによる意味解析の2段階で検出する。リスクを0〜100点でスコア化し、開発工程向け標準形式(SARIF)などで出力でき、Git・URL・zip・ディレクトリなど複数入力に対応してCI/CDへ組み込める。NVIDIAの調査ではスキルの26.1%に脆弱性、5.2%に悪意ある挙動が含まれたと報告されており、外部スキルを無検査で取り込む運用は見直しの対象になる。導入是非の判断軸は、自社のエージェントが外部スキルをどれだけ取り込むか、そのレビュー工程がいま人手かどうかだ。1日809スター増は安全側の関心の高さを示す。
Claude Code v2.1.175では、管理者が許可したモデル以外を全社で使わせない新設定が追加された。利用者やプロジェクト側の設定では組織の許可リストを広げられず、許可外モデルは自動で許可済みへフォールバックする。スキル検査が「何を取り込むか」の入口管理なら、これは「何を使えるか」の出口管理にあたる。どちらも、エージェントの自由度が上がるほど統制を機構側に持たせる流れの一部だ。情シス・プラットフォーム担当は、現状の許可モデル一覧を棚卸しして許可リストを定義しておく余地がある。
OpenMedは臨床テキストの情報抽出とPII匿名化を端末内だけで完結するOSS(Apache-2.0)で、クラウドAPIに患者データを送らず自社サーバーやiPhone上で動く。匿名化の中核はNVIDIA公開の合成データNemotron-PIIで学習し、HIPAAの識別子18項目に対応、伏せ字・置換・ハッシュ化・日付シフトを選べる。Apple Silicon向けMLX対応で匿名化処理がCPU比24〜33倍速、Swiftパッケージ経由でサーバーなしに組み込める。規制データを扱う業務では「データを外に出さずに処理できるか」が調達条件になりつつあり、医療・金融・法務の実装担当には代替コストを試算する材料になる。
推論コストをめぐる再編が同じ日に複数走った
安全と並んで、推論をいかに安く速くするかの動きがソフト・ハード両面で進んだ。
対話AIやRAGでは同じ文脈を毎回計算し直す無駄が生じる。LMCacheは推論エンジンとは別プロセスでKVキャッシュを保存・再利用し、CPUメモリ・ディスクなどに逃がして再計算を減らすOSSで、1日246スター増。長い文脈を繰り返し使うチャットやRAGを運用するチームには、推論コストの直接の削減手段になる。Wins: 同一文脈を多用する軽量運用チームはコスト優位。Loses: キャッシュ前提に設計し直す手間を負えない既存スタックは恩恵が限定される。
AWSが半導体新興のCerebrasと複数年提携し、ウェーハスケールチップCS-3とAWS独自のTrainiumを並べる分散型の推論基盤を構築する。同時にNVIDIAは推論企業Groqを約200億ドルで取得した。推論の費用対効果が勝負の軸に移り、クラウドと半導体大手が供給側を囲い込む構図が鮮明になった。Wins: 大規模推論を抱える事業者は選択肢が増える。Loses: 単独で推論専用チップを売る独立系は大手の傘下化で交渉力を失う。利用側は、調達先のロックイン構造を前提に複数ベンダーの推論単価を比較しておく必要がある。
調査会社Artificial Analysisが、AIエージェント運用の費用対効果を測る業界初の指標AgentPerfを公開した。初回結果ではNVIDIA GB300 NVL72が前世代H200比で消費電力あたりの処理を大きく改善した。これまで断片的だったエージェント基盤の比較に共通指標が入ったことで、調達判断が「ベンチ任せ」から「自社ワークロードでの単価実測」へ移る土台ができた。
実運用の成果と、規制が引いた線
米Rocket CloseがエージェントAI「Supercharger」を実運用し、コールセンターへの電話・メールを月数千件さばき、入電を30%削減した。基盤はAWSのオープンソース開発キットStrandsで、ツールやベンチの話に留まらず業務指標が動いた実例だ。エージェント導入を検討する事業側には、どの定型業務を移管すれば入電や工数が何%減るかを試算する具体的な参照点になる。
米政府が輸出管理の指示でAnthropicにFable 5とMythos 5の全外国籍利用者向け提供停止を命じ、同社は即時無効化した。Anthropicは指示に従いつつ、根拠とされた脆弱性は他社モデルでも到達しうると述べている。自社が外国籍の利用者を抱える、あるいは高性能モデルをサービスに組み込んでいる場合、提供範囲が政策一つで遮断されうる前提でベンダー依存を見直す必要がある。確認すべきは、利用中モデルの提供条件と代替モデルへの切替手順だ。