今日のAIトレンド｜運用するエージェントへ重心移動

企業動向オープンモデル・OSS 国内外の企業・研究 06/29 08:50

Daily Digest

対象期間 2026年6月29日

今日のAIトレンド

エージェントは「動かす」から「育て、計測し、歯止めをかける」段階に入った

8 本を 1 本に

Read on

SECTION 01

今日の要点

編集判断で選び抜いた 8 本。

30 秒で読むなら

今日の AI 動向を 1 行ずつで把握。各項目をクリックすると元記事に飛びます。

申請プロンプトが毎週自動更新
DeNAがDevinに申請代行エージェントの指示文を毎週月曜朝9時に自動改善させ、最終判断は人間に残した。
NVIDIAが専門特化AIの土台を公開
推論モデル・振る舞い設計図・実行環境の3要素を改変・所有できる形で束ねたAgent Toolkitを公開。
創薬作業が数カ月→数日に
BioNeMo Toolkitは創薬の工程を短縮、Cadence・Synopsys・SAPが採用企業に挙がる。
Slackで誰でも@Claudeに作業を依頼
Anthropicが「Claude Tag」を発表。社内では製品チームのコードの65%が社内版で生成済み。
90日経営でモデルの長期力を測る
Sakana AIとあずさ監査法人がコーヒー業界の経済シミュレーションCoffeeBenchを公開、モデル間に大きな差。
AIの経済影響はどこに先に出るか
Anthropicの経済インデックス最新報告が、利用が集中する仕事領域から影響が先行可視化されると指摘。
推論トークン費用を最大8割削減
LangChainのDeep Agentsがプロンプト・キャッシュで推論コストを41〜80%削減できると公開。
GPT‑5.6 Solは安全対策を前面に
OpenAIが新モデルを公開、A100換算70万GPU時間超の自動テスト投入を開示。

SECTION 02

「動かす」より「育てる・止める」が今日の主役

エージェントを作る話から、運用しながら直し、歯止めをかける話へ重心が移った。

差し戻しコメントが指示文を毎週書き換える

DeNAは社内のツール利用申請を代行するエージェントの指示文を、Devin自身に毎週月曜朝9時に自動見直しさせる仕組みを公開した。改善の入力は、承認者の差し戻しコメントと、会話の記録を貯める観測基盤(Langfuse)のログである。6月の4週で計4本の改善が入り、法令確認まわりの選択ミスが起きていた箇所を3週かけて修正した。注目すべきは止め方で、編集対象はプロンプト本文のみ・行数の上限・テスト全通過必須・下書き限定・自動マージ禁止の5つの歯止めを置き、最終判断は人間が握る。エージェントの「自己改善」を安全に回すための具体的な設計の実例として、自社で同種の自動化を検討する担当者に直接効く。

記事を読む

Slackに@Claudeで作業を投げる

AnthropicはSlackチャンネルに参加させ、誰でも@Claudeで作業を任せられる「Claude Tag」を発表した。社内では製品チームのコードの65%が社内版で生成済みとされる。専用ツール画面を開かず、既に人が集まる会話の場へエージェントを置く形で、導入の手間を会話の延長に縮める。DeNAの自動改善ループと合わせて読むと、エージェントを既存の業務動線に組み込む流れが今日の共通項だ。

記事を読む

SECTION 03

自社で持てる土台と、性能を測る物差しが揃ってきた

構築基盤と評価ベンチが同じ日に出たことで、調達と検証の優先度が上がる。

改変・所有できる3点セット

NVIDIAは企業が自社業務向けに専門特化エージェントを構築するためのAgent Toolkitを公開した。構成は推論モデル「Nemotron」・振る舞い設計図「NemoClaw」・実行環境「OpenShell」の3要素で、モデル・ツール/技能・安全な実行環境を改変・所有できる形で束ねている。応用例として、CrowdStrikeの専用セキュリティエージェントは警告の振り分けを98.5%の精度で実施し、創薬向けのBioNeMo Toolkitは従来数カ月の作業を数日に短縮できるとされ、Cadence・Synopsys・SAPなどが採用企業として挙げられている。外部サービスに丸ごと依存せず自社で持てる土台を求める経営層・基盤担当に効く。

記事を読む

90日間の利益最大化で長期力を測る

Sakana AIとあずさ監査法人は、LLMの長期経営力を測るCoffeeBenchを公開した。農家A・B、焙煎所A・B、小売店A・Bの6社が90日間で純利益の最大化を競う経済シミュレーション環境で、最新モデル間に大きな差が出た。1回の応答品質ではなく、長期にわたる意思決定の積み重ねを見る物差しで、エージェントを業務に任せる前の評価軸を選ぶ際の参考になる。

記事を読む

SECTION 04