Amazon SageMaker AIのリアルタイム推論エンドポイントに、OpenAI互換APIサポートが追加された。エンドポイントには新たに/openai/v1パスが用意され、Chat Completions形式のリクエストおよびストリーミング応答に対応する。OpenAI SDK、LangChain、Strands Agentsを利用しているアプリケーションは、エンドポイントURLを差し替えるだけでSageMaker上のモデルを呼び出せる。従来必要だったカスタムクライアントやSigV4署名ラッパー、コード書き換えは不要になった。

認証はベアラートークン方式で、SageMaker Python SDKを使って生成する。トークンの有効期間は1秒から最大12時間まで設定でき、用途に応じてアクセス境界を細かく制御できる。トークンの実体はbase64エンコードされたSigV4事前署名URLで、生成時にネットワーク通信が発生しない設計のため、クライアント側で署名を都度生成する場合の遅延や依存関係を抑えられる。IAM側ではsagemaker:InvokeEndpointとsagemaker:CallWithBearerTokenの権限を付与する必要がある。

単一エンドポイントの裏で推論コンポーネントを使えば複数モデルをまとめてホストでき、それらを同じOpenAI SDKから切り替えて呼び出せる。これは、OpenAI APIを前提に構築された社内アプリ資産を、自社管理GPUインスタンスやファインチューニング済みモデルへ移すときのスイッチングコストを下げる方向に働く。データプライバシーやコスト管理の観点でOpenAI API直接利用を選びにくいエンタープライズにとって、クライアント側のコード資産を維持したままSageMakerへ寄せられる経路ができた点が実装判断に直結する。