ComfyUI v0.22.0、Stable Audio 3対応で音声生成も射程に

AI TREND

Comfy-Org：v0.22.0リリース

ComfyUI v0.22.0が公開され、Stable Audio 3モデル対応、MoGe（単眼幾何推定）ノード追加、LTX2.3のVRAM最適化、ByteDance Seed LLMノードのパートナー追加、SECURITY.md整備など多岐にわたる更新が行われた。

3 の要点を3分で

音声生成への射程拡大とマルチモーダル化

ComfyUI v0.22.0で最も象徴的な変更は Stable Audio 3 モデルのサポート追加である。ComfyUIはこれまで画像生成（SD系・Flux・HiDream-O1）と動画生成（LTXV・Hunyuan）を中心に発展してきたが、今回の更新で音声生成領域にもノードグラフ上で直接アクセスできるようになった。さらに `Use temporal downscale to make empty audio latent nodes more reusable` の改善により、空オーディオ潜在ノードの再利用性も高まっている。同時に MoGe（単眼幾何推定） ノードがCORE-168として追加され、単一画像から深度・幾何情報を取り出す処理がノード化された。画像→3D・画像→動画の前処理経路が標準ノードで完結する範囲が広がった意味は大きい。

実用安定性とパートナー連携

運用面では LTX2.3 のguide_mask使用時ピークVRAM削減（CORE-166）、Hunyuan3D 2.1 のバッチサイズ起因のクラッシュ修正、Qwen3.5のマルチ画像プロンプト時のテキスト生成不具合修正など、既存ユーザーが踏みやすい不具合への対処が並ぶ。Batch Image/Mask/Latentノードの最小値が2から1に引き下げられたことで、単一サンプルでもバッチノードを通せるようになり、ワークフローの汎用化が進む一方、既存ワークフローで「最小2」を前提にしていた箇所は再確認が必要だ。

パートナーノードでは ByteDance Seed LLM が新規追加され、Opus 4.7のdeprecated temperatureパラメータ送信問題も修正された。HiDream-O1のエリアコンディショニング対応や、新設の StringFormat ノードはプロンプト合成・テンプレート運用に効く。加えて SECURITY.md が新規作成され、脆弱性報告のポリシーが公式に整備された点は、企業環境での導入審査において一次情報として参照できる材料となる。

ComfyUI v0.22.0、Stable Audio 3対応で音声生成も射程にの本文内説明図 — 図解: v0.22.0リリース - 音声・画像・動画・3Dを単一グラフで連結

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

Stable Audio 3対応で画像・動画に続き音声生成ワークフローもネイティブに
MoGe（単眼幾何推定）ノード追加で深度・幾何情報の取得が標準化
LTX2.3のguide_mask使用時ピークVRAMが削減され低スペック環境でも動作余地

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Comfy-Org
何を: v0.22.0リリース
いつ: 2026年5月21日
どこで: GitHub
なぜ: 機能追加と安定性改善
どのように: PRマージ統合

何が起きたか

ComfyUI v0.22.0が公開され、Stable Audio 3モデル対応、MoGe（単眼幾何推定）ノード追加、LTX2.3のVRAM最適化、ByteDance Seed LLMノードのパートナー追加、SECURITY.md整備など多岐にわたる更新が行われた。

3つの視点で読む

技術 / 事業 / 規制 — この変化があなたの判断にどう効くか。

技術への影響

Stable Audio 3とMoGeの両対応により、ComfyUIは画像・動画・音声・3D幾何を単一ノードグラフ上で連結できる範囲を拡大した。LTX2.3のguide_mask経路でピークVRAMが下がったことは、ローカルGPUでの動画生成ワークフローの実行下限を引き下げる直接的な改善である。

市場・事業への影響

ByteDance Seed LLMがパートナーノードに加わり、HiDream-O1のエリアコンディショニング対応も入ったことで、商用モデルとOSSノード基盤の接続点が増えた。Stable Audio 3のサポートは、音声生成領域でAUTOMATIC1111系やInvokeAIに対しComfyUIが先行する材料となる。

規制・リスク

SECURITY.mdの新規作成により、脆弱性報告経路が公式ドキュメント化された。社内利用時のセキュリティレビューやサプライチェーン審査で参照できる一次情報源が整備された点が、企業導入の手続き面に直結する。

機会と脅威

この変化で機会を得るのは誰か、脅威にさらされるのは誰か。

機会 4

ローカル動画生成ユーザー

LTX2.3のVRAM削減とHunyuan3D 2.1のクラッシュ修正で、限られたGPUでの安定運用がしやすくなる

音声生成ワークフロー構築者

Stable Audio 3のネイティブ対応により、画像・動画パイプラインと同じグラフ上で音声生成を組める

ByteDance（Seedモデル）

パートナーノード化でComfyUIユーザー基盤に直接接続できる導線を獲得

脅威 2

競合UI（A1111系・InvokeAI等）

音声・幾何推定・パートナーLLMまで束ねるComfyUIとの機能差が拡大

旧Batchノード前提のワークフロー保守者

Batch Image/Mask/Latentの最小値が2→1に変わり、既存ワークフローの前提値を再確認する必要が出る

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

SECURITY.mdに記載の脆弱性報告経路と、パートナーノード（ByteDance Seed LLM等）の利用規約・データ送信先を確認する。

事業を決める人へ

Stable Audio 3とMoGe追加で広がる音声・3D生成ユースケースの社内PoC範囲と評価指標を定義する。

手を動かす人へ

LTX2.3のguide_mask利用ワークフローで、v0.21.1とv0.22.0のピークVRAMと生成時間の差分を測る。

時系列タイムライン

2026年5月21日 ComfyUI v0.22.0がGitHubでリリース。Stable Audio 3対応、MoGeノード追加、SECURITY.md新設など
2026年5月21日以前前バージョンv0.21.1が公開されており、本リリースとの差分が Full Changelog として整備された
今後ワークフローテンプレートはv0.9.79に更新済み。次回マイナー更新で残るtemporal downscale関連の整備継続が予定