小型AIのツール選択精度を微調整で上げる｜AWS手順

AI TREND

AWS：微調整手順を公開

AWSが、AIエージェントが正しいツールを呼び出す精度を、小型モデルへの教師あり微調整(SFT)と好み最適化(DPO)の二段構えで高める具体手順を、Amazon SageMaker AI上の実装例とともに公開した。

3 の要点を3分で

AWSが、AIエージェントが正しいツールを呼び出す精度を、巨大モデルへの依存ではなく小型モデルQwen3 1.7Bの微調整で上げる手順を公開した。手本を学ばせる教師あり微調整(SFT)で基礎を作り、良い応答と悪い応答の比較から好みを学ばせるDPO(好み最適化)で望ましい振る舞いへ寄せる二段構えが核だ。DPOは報酬モデルを使う強化学習と違い比較データだけで学べるため、計算資源と学習時間を抑えられる。

学習と評価にはNVIDIA公開のWhen2Call(SFT用1万5千件、好み用9千件、テスト用)を使う。学習はAmazon SageMaker AIの学習ジョブでml.p4d.24xlargeインスタンス1台を使い、指標はMLflowに記録される。終了後は資源を自動停止でき、自前の学習基盤を抱えずコードに集中できる。

手順はベースモデルと複数の微調整版を同じテストデータで比較し、データに基づき品質を判断する評価工程まで含む。試験導入から本番運用へエージェントを移す企業にとって、推論コストの主導権を取り戻す現実的な選択肢になる。

小型AIのツール選択精度を微調整で上げる｜AWS手順の本文内説明図 — 図解: RLスキル生成 - 軌跡生成を使う強化学習基盤

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

巨大モデルに頼らず小型モデルQwen3 1.7Bの微調整で精度を上げる現実解
DPOは比較データだけで学習でき報酬モデル不要、強化学習より資源を節約
NVIDIA公開のWhen2Call(SFT1.5万件/好み9千件)で訓練と評価を実施

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: AWS
何を: 微調整手順を公開
いつ: 2026年6月4日
どこで: AWSブログ
なぜ: ツール呼出精度向上
どのように: SFTとDPOの二段構え

背景

AIエージェントは複数の工程からなる複雑な作業を自動で進められるが、その実力は正しいツールを呼べるかどうかに左右される。誤ったツールを選んだり引数の形式を間違えたりすると、作業時間が伸び、エラーや問い合わせ対応コストが増え、利用体験が悪化する。多くの企業が試験導入から本番運用へエージェントを移す段階に入り、リクエストごとに正しいツールを選ぶ信頼性が不可欠になっている。今回の事例ではNVIDIAが公開したツール呼び出し判断の評価用データ「When2Call」と、小型モデルQwen3 1.7Bを用いる。

なぜ今注目なのか

エージェントの精度向上を、巨大モデルへの依存ではなく小型モデルの微調整で実現する具体的な手順が示された点が実務的に重要である。SFTで基礎を教え、DPOで望ましい振る舞いへ寄せる二段構えは、報酬関数や報酬モデルを使う強化学習より計算資源と学習時間を抑えられる。SageMaker AIの学習ジョブを使うため、自前の学習基盤を管理せずコードに集中でき、終了後は資源を自動停止できる点もコスト判断に効く。

巨大モデル頼みをやめ、小型モデルを微調整で鍛える

AWSが公開した手順の核は、AIエージェントが正しいツールを呼ぶ精度を、巨大モデルへの依存ではなく小型モデルQwen3 1.7Bの微調整で上げる点にある。手本を学ばせる教師あり微調整(SFT、正解の振る舞いを直接教える方法)で基礎を作り、良い応答と悪い応答の比較から好みを学ばせる好み最適化(DPO、Direct Preference Optimization)で望ましい振る舞いへ寄せる、二段構えだ。

In this post, you learn how to use Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) together to improve the tool-calling accuracy of a small language model (SLM).
出典: Improve your agent's tool-calling accuracy with SFT and DPO on Amazon SageMaker AI

DPOは報酬モデル(良し悪しを採点する別モデル)を学習し直す強化学習と違い、「こちらが良い・こちらが悪い」という比較データだけで学べる。学習工程が一段減るぶん、計算資源と学習時間を抑えられる。エージェントが誤ったツールを選んだり引数の形式を間違えたりすると作業時間とエラー対応コストが膨らむため、本番運用へ移す段階の企業にとって、この精度は信頼性そのものに直結する。

When2Callの1.5万件で訓練し、評価まで通す

手順では学習と評価のデータに、NVIDIAが公開したWhen2Call(ツールをいつ呼ぶべきかの判断を評価するデータセット)を使う。内訳は教師あり微調整用に1万5千件、好み最適化用に9千件、そしてテスト用が用意されている。

学習はAmazon SageMaker AIの学習ジョブで実行し、ml.p4d.24xlargeインスタンスを1台使う。学習中の指標は実験管理ツールのMLflowに記録され、後から振る舞いの変化を追える。

The example uses Amazon SageMaker AI training jobs, so you can focus on training code instead of managing your own training infrastructure.
出典: AWS Machine Learning Blog

重要なのは、訓練だけで終わらず評価手順まで含む点だ。ベースモデルと複数の微調整版を同じテストデータで比較し、どれが本当に精度を上げたかをデータで判断する。実装コードとデータの参照先は公開のサンプルリポジトリにまとまっており、自分の環境に持ち込んで再現できる構成になっている。

得をするのはAPI単価に縛られたくない現場

最も得をするのは、試験導入から本番へエージェントを移す国内の実装現場だ。巨大モデルAPIをリクエストごとに叩き続けると単価が積み上がるが、小型モデルを自前で微調整して品質を担保できれば、推論コストの主導権を取り戻せる。

SageMaker AIを使うMLエンジニアにも恩恵がある。学習ジョブが基盤管理を肩代わりし、終了後は資源を自動停止できるため、GPUクラスタを常時保有せず必要なときだけ回せる。固定費を抱えられない中小チームには、この使い切り型の課金が効く。

一方で、精度向上を巨大モデル依存だけで解こうとする構成は、自前微調整という代替の説得力が増したぶん相対的に分が悪くなる。NVIDIAのWhen2CallとQwen3 1.7Bは、実務手順の標準的な部品として採用が進む側に立つ。

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

AWS公式ブログのSFTとDPOの工程分担と、ml.p4d.24xlasterではなくml.p4d.24xlargeインスタンス前提のコストを確認する。

事業を決める人へ

巨大モデルAPI従量課金と小型モデル自前微調整の、本番運用時のリクエスト単価差を比較する。

手を動かす人へ

When2Callのテストデータで、ベースのQwen3 1.7Bと微調整版のツール呼び出し成功率の差を測る。

時系列タイムライン

過去 NVIDIAがツール呼び出し判断の評価データ When2Call を公開
2026年6月4日 AWSが SFTとDPOで小型モデルのツール呼び出し精度を上げる手順をブログで公開

SNSの反応

SFTとDPOで小型AIエージェント精度向上

AWSが「SageMaker AI上でSFTとDPOを組み合わせ、小型言語モデルのツール呼び出し精度を高める」手法を公開。巨大モデルへの依存ではなく、Qwen3 1.7Bなど小型モデルを微調整する実務的な手順が示され、エージェント開発者やMLエンジニアの間で「コスト効率の良い実装方法」として注目されている。X上ではエージェント実装やツール連携に関する技術的な話題が広く議論されている。

SFT+DPOの二段構え学習

教師あり微調整（SFT）で基礎を教え、好み最適化（DPO）で望ましい振る舞いに寄せる二段構えが中核。DPOは「良い・悪い」の比較データで学習するため、報酬モデルを使う強化学習より計算資源と学習時間を抑えられる点が実務的に評価されている。小型モデルでもツール呼び出し精度を高められることが、巨大モデル依存を避けたい開発者の関心を集めている。 → AWS公式解説記事

OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bedrock with OpenAI through the security, compliance, and governance workflows they already use. This is also the beginning of a broader expansion of OpenAI…

♡ 0

Qwen3 1.7BとWhen2Callで検証

学習対象は小型モデルのQwen3 1.7B、評価にはNVIDIAのWhen2Callデータ（SFT用1万5千件、好み用9千件、テスト用）を使用。ベースモデルと複数の微調整版を比較し、データに基づいて品質を判断する評価手順まで提供されている点が実務での再現性を高めている。小型モデルでどこまでエージェント精度を上げられるかという技術的関心が高い。 → When2Callデータセット

Get a full technical breakdown of this agent, and see what happened when we rain it ran it against 2025 GDP data for all 27 EU member states.

♡ 0

SageMaker学習ジョブで運用

学習はSageMaker AIの学習ジョブでml.p4d.24xlargeインスタンス1台を使用し、指標はMLflowに記録される。自前の学習基盤を管理せずコードに集中でき、終了後は資源を自動停止できるためコスト判断に効く。エージェントのブラウザ操作やツール連携といった実装例とあわせて、運用面での扱いやすさが議論されている。 → 実装サンプルコード