Qwen4モデルがSageMakerで即時デプロイ可能に｜AWS

モデル米国メガテック SageMaker JumpStart 05/06 11:02

AWSは2026年5月5日、Amazon SageMaker JumpStartで4つのQwenモデルの提供を開始した。ラインナップはマルチモーダル推論向けのQwen3.5-27B-FP8、コーディングエージェント向けのQwen3.6-35B-A3B、軽量用途のQwen3.5-0.8BとQwen3.5-2Bの4種類で、SageMaker StudioのGUIまたはSageMaker Python SDKから即日デプロイできる。

Qwen3.5-27B-FP8は画像・動画・テキストを横断する視覚言語モデルで、200言語以上の多言語コミュニケーションと最大100万トークンの長文脈処理に対応する。エージェントのツール利用、コーディング支援、数学的推論といった複合タスクが想定用途として挙げられている。FP8量子化により、27BクラスながらGPUメモリ要件が抑えられる点が実装者にとっての利点になる。

Qwen3.6-35B-A3Bは総パラメータ35Bに対し推論時のアクティブパラメータが3BというMixture-of-Experts構成で、フロントエンド開発、リポジトリ規模のコード推論、マルチステップのエージェント対話、コーディングCopilot用途に最適化されている。アクティブパラメータが小さいため、同等精度帯の密結合モデルよりも推論コストを抑えやすい。

一方、Qwen3.5-0.8Bと2Bはプロトタイピング、ファインチューニング、オンデバイス推論、エッジ展開を想定した軽量マルチモーダルモデルで、計算資源が限られる環境でも多言語テキスト生成や視覚理解を扱える。

日本の開発現場にとっては、SageMakerの既存のIAM・VPC・監査ログの枠組み内でQwen系を試せる点が意思決定の焦点になる。中国発モデルの採用可否は各社の調達ポリシーに依存するため、技術検証と並行して利用規約とデータフローの確認を進めることが実装の前提となる。

Qwen4モデルがSageMakerで即時デプロイ可能に｜AWSの本文内説明図 — 図解: 4つのQwenをSageMakerでどう選ぶか - 用途・規模・統制を一枚で照合する選定マップ

押さえるポイント

Qwen3.5-27B-FP8は200言語以上・最大100万トークンのコンテキストに対応
Qwen3.6-35B-A3BはMoEでアクティブ3Bのみ、コーディング用途に最適化
0.8B/2Bはエッジ推論・ファインチューニング用の軽量マルチモーダル

5W1Hでサクッと理解 誰が AWS 
 何を Qwen4モデル提供 
 いつ 2026年5月5日 
 どこで SageMaker JumpStart 
 なぜ 用途別AI需要対応 
 どのように GUIとSDKで配布 

何が起きたか

要点AWSがAmazon SageMaker JumpStartで4つのQwen新モデル（Qwen3.5-27B-FP8、Qwen3.6-35B-A3B、Qwen3.5-0.8B、Qwen3.5-2B）を公開し、SageMaker StudioのGUIまたはPython SDKから即日デプロイできるようになった。

3つの視点で読む

開発現場

Qwen3.5-27B-FP8はFP8量子化で推論メモリを削減しつつ画像・動画・テキストのマルチモーダル推論と100万トークンの長文脈を両立する。Qwen3.6-35B-A3Bは総35Bのうち推論時3Bのみを活性化するMoE構成で、リポジトリ規模のコード推論を少ない計算資源で処理できる。

事業判断

AWS上でQwen系をマネージドにデプロイできるため、これまでHugging FaceやAlibaba Cloud経由で自前運用していた開発者がSageMakerのエンドポイント・IAM・VPCに統合した形で利用可能になる。GPTやClaude以外のOSSベース選択肢が1つ増え、コーディングエージェント領域でのモデル比較軸が広がる。

リスク・ルール

AWSマネージド環境下でのデプロイとなるため、データ所在・アクセス制御を既存のAWSガバナンス枠で運用できる。中国発モデルの採用可否は企業ポリシーに依存するため、調達部門の基準整備が実装前提となる。

追い風と向かい風

追い風を受ける側

AWS上でAI基盤を運用する日本企業SageMakerの既存権限・ネットワーク設計を流用してQwen系を試せるため、PoC着手コストが下がる
コーディングエージェント開発者Qwen3.6-35B-A3BがMoEでアクティブ3BのためGPUコストを抑えつつリポジトリ規模のコード推論を試せる
エッジ・オンデバイスAI開発者Qwen3.5-0.8B/2Bが軽量マルチモーダルとして提供され、ファインチューニングのベース候補が増える

向かい風を受ける側

同価格帯の他OSSモデル提供者SageMaker JumpStartでワンクリック利用できるQwenが比較対象として常時並ぶことで、採用判断での競合圧が上がる
クローズドなコーディング特化API自社VPC内でMoEコーディングモデルを動かせる選択肢が増え、データ持ち出しを嫌う案件での優位性が薄れる

今やるべきこと

技術判断 確認する自社のAWSアカウントでJumpStart経由のQwenデプロイに必要なリージョン、インスタンス種別、IAM権限、モデル利用規約を確認する

事業判断 定義する Qwen3.6-35B-A3BをコーディングCopilot用途でPoCする際の成功条件を、トークン単価・応答精度・既存API比のコスト差で定義する

実装・検証 測る同一プロンプトでQwen3.5-27B-FP8と既存マルチモーダルモデルの推論レイテンシ、100万トークン入力時のスループット、FP8での精度差を測る

時系列タイムライン

2026年5月5日 AWSがSageMaker JumpStartで4つのQwenモデル（Qwen3.5-27B-FP8、Qwen3.6-35B-A3B、Qwen3.5-0.8B、Qwen3.5-2B）の提供を開始
2026年5月5日 SageMaker StudioのGUIおよびSageMaker Python SDKからの即日デプロイが可能に
今後各モデルのAWSリージョン対応拡大と、日本企業でのPoC採用事例の蓄積