LangChainの開発チームに加わったAlex Olsen氏が、初の記事でエージェント基盤Deep Agentsの費用削減手法を公開した。エージェント基盤がプロンプト・キャッシュ(過去の入力のうち毎回同じになる部分を再計算せず使い回す機能)を活用することで、推論時のトークン費用を41〜80%削減できると紹介している。
自律エージェントは長い指示や文脈を繰り返しモデルへ送るため、利用規模が大きくなるほど入力トークンの課金がかさむ。プロンプト・キャッシュはモデル提供各社が用意する費用削減機能であり、Deep Agentsはこれを前提に組むことで削減を実現したとしている。
エージェントを本番運用へ移す際、推論コストは最大の壁の一つである。代表的なオープンソース基盤を提供するLangChainの開発チーム自身が運用ノウハウを公開した点は、導入可否を判断する技術者・事業者にとって検証のとっかかりになる。削減幅は入力の固定部分が占める割合で変わるため、自社構成での実測が前提となる。