↓ 引っ張って更新
Whytrend AI
Whytrend AI をホーム画面に追加 アプリのように快適に使えます
をタップ →「ホーム画面に追加」

今日のAIトレンド|運用するエージェントへ重心移動

企業動向 オープンモデル・OSS 国内外の企業・研究 06/29 08:50
Daily Digest

対象期間 2026年6月29日

今日のAIトレンド

エージェントは「動かす」から「育て、計測し、歯止めをかける」段階に入った

8 本を 1 本に
Read on
SECTION 01

今日の要点

編集判断で選び抜いた 8 本。

30 秒で読むなら

今日の AI 動向を 1 行ずつで把握。各項目をクリックすると元記事に飛びます。

  1. 申請プロンプトが毎週自動更新

    DeNAがDevinに申請代行エージェントの指示文を毎週月曜朝9時に自動改善させ、最終判断は人間に残した。

  2. NVIDIAが専門特化AIの土台を公開

    推論モデル・振る舞い設計図・実行環境の3要素を改変・所有できる形で束ねたAgent Toolkitを公開。

  3. 創薬作業が数カ月→数日に

    BioNeMo Toolkitは創薬の工程を短縮、Cadence・Synopsys・SAPが採用企業に挙がる。

  4. Slackで誰でも@Claudeに作業を依頼

    Anthropicが「Claude Tag」を発表。社内では製品チームのコードの65%が社内版で生成済み。

  5. 90日経営でモデルの長期力を測る

    Sakana AIとあずさ監査法人がコーヒー業界の経済シミュレーションCoffeeBenchを公開、モデル間に大きな差。

  6. AIの経済影響はどこに先に出るか

    Anthropicの経済インデックス最新報告が、利用が集中する仕事領域から影響が先行可視化されると指摘。

  7. 推論トークン費用を最大8割削減

    LangChainのDeep Agentsがプロンプト・キャッシュで推論コストを41〜80%削減できると公開。

  8. GPT‑5.6 Solは安全対策を前面に

    OpenAIが新モデルを公開、A100換算70万GPU時間超の自動テスト投入を開示。

SECTION 02

「動かす」より「育てる・止める」が今日の主役

エージェントを作る話から、運用しながら直し、歯止めをかける話へ重心が移った。

差し戻しコメントが指示文を毎週書き換える

DeNAは社内のツール利用申請を代行するエージェントの指示文を、Devin自身に毎週月曜朝9時に自動見直しさせる仕組みを公開した。改善の入力は、承認者の差し戻しコメントと、会話の記録を貯める観測基盤(Langfuse)のログである。6月の4週で計4本の改善が入り、法令確認まわりの選択ミスが起きていた箇所を3週かけて修正した。注目すべきは止め方で、編集対象はプロンプト本文のみ・行数の上限・テスト全通過必須・下書き限定・自動マージ禁止の5つの歯止めを置き、最終判断は人間が握る。エージェントの「自己改善」を安全に回すための具体的な設計の実例として、自社で同種の自動化を検討する担当者に直接効く。

Slackに@Claudeで作業を投げる

AnthropicはSlackチャンネルに参加させ、誰でも@Claudeで作業を任せられる「Claude Tag」を発表した。社内では製品チームのコードの65%が社内版で生成済みとされる。専用ツール画面を開かず、既に人が集まる会話の場へエージェントを置く形で、導入の手間を会話の延長に縮める。DeNAの自動改善ループと合わせて読むと、エージェントを既存の業務動線に組み込む流れが今日の共通項だ。

SECTION 03

自社で持てる土台と、性能を測る物差しが揃ってきた

構築基盤と評価ベンチが同じ日に出たことで、調達と検証の優先度が上がる。

改変・所有できる3点セット

NVIDIAは企業が自社業務向けに専門特化エージェントを構築するためのAgent Toolkitを公開した。構成は推論モデル「Nemotron」・振る舞い設計図「NemoClaw」・実行環境「OpenShell」の3要素で、モデル・ツール/技能・安全な実行環境を改変・所有できる形で束ねている。応用例として、CrowdStrikeの専用セキュリティエージェントは警告の振り分けを98.5%の精度で実施し、創薬向けのBioNeMo Toolkitは従来数カ月の作業を数日に短縮できるとされ、Cadence・Synopsys・SAPなどが採用企業として挙げられている。外部サービスに丸ごと依存せず自社で持てる土台を求める経営層・基盤担当に効く。

90日間の利益最大化で長期力を測る

Sakana AIとあずさ監査法人は、LLMの長期経営力を測るCoffeeBenchを公開した。農家A・B、焙煎所A・B、小売店A・Bの6社が90日間で純利益の最大化を競う経済シミュレーション環境で、最新モデル間に大きな差が出た。1回の応答品質ではなく、長期にわたる意思決定の積み重ねを見る物差しで、エージェントを業務に任せる前の評価軸を選ぶ際の参考になる。

SECTION 04

コストと安全、そして経済影響の見え方

運用を前提にすると、費用の削減・安全検証・影響の計測が次の論点になる。

推論コストは41〜80%削れる

LangChainのDeep Agentsは、過去の入力を使い回すプロンプト・キャッシュで推論のトークン費用を41〜80%削減できると公開した。エージェントを常時動かすほど推論コストが積み上がるため、トークン単価ベースで月額換算してキャッシュ適用前後を比較する価値がある。

安全検証を性能と並べて開示

OpenAIは新モデルGPT‑5.6 Solを公開し、過去最強と称する安全対策を前面に出した。専門家による人手の攻撃検証に加え、A100換算で70万GPU時間超の自動テストを投入したと開示している。性能数値だけでなく検証投入量を併記する開示姿勢で、自社運用時にどこまで検証コストを積むかの相場感の手がかりになる。

影響はまず使われる仕事から見える

Anthropicの経済インデックス最新報告は、AIの経済影響は雇用や生産性の集計データに最終的に表れるが、まずAIが多くの仕事を担う領域で先行して可視化されると指摘した。利用動向を時間単位・利用単位で追う視点を示しており、社内導入の効果測定をどの粒度で見るかの設計に効く。

人気記事ランキング

ランキングをもっと見る →

企業動向の記事

読み込み中...

本記事はAIを活用して複数のニュースソースを統合・分析しています。情報の正確性については各ソースをご確認ください。

トップに戻る