音声生成への射程拡大とマルチモーダル化

ComfyUI v0.22.0で最も象徴的な変更は Stable Audio 3 モデルのサポート追加である。ComfyUIはこれまで画像生成(SD系・Flux・HiDream-O1)と動画生成(LTXV・Hunyuan)を中心に発展してきたが、今回の更新で音声生成領域にもノードグラフ上で直接アクセスできるようになった。さらに `Use temporal downscale to make empty audio latent nodes more reusable` の改善により、空オーディオ潜在ノードの再利用性も高まっている。同時に MoGe(単眼幾何推定) ノードがCORE-168として追加され、単一画像から深度・幾何情報を取り出す処理がノード化された。画像→3D・画像→動画の前処理経路が標準ノードで完結する範囲が広がった意味は大きい。

実用安定性とパートナー連携

運用面では LTX2.3 のguide_mask使用時ピークVRAM削減(CORE-166)、Hunyuan3D 2.1 のバッチサイズ起因のクラッシュ修正、Qwen3.5のマルチ画像プロンプト時のテキスト生成不具合修正など、既存ユーザーが踏みやすい不具合への対処が並ぶ。Batch Image/Mask/Latentノードの最小値が2から1に引き下げられたことで、単一サンプルでもバッチノードを通せるようになり、ワークフローの汎用化が進む一方、既存ワークフローで「最小2」を前提にしていた箇所は再確認が必要だ。

パートナーノードでは ByteDance Seed LLM が新規追加され、Opus 4.7のdeprecated temperatureパラメータ送信問題も修正された。HiDream-O1のエリアコンディショニング対応や、新設の StringFormat ノードはプロンプト合成・テンプレート運用に効く。加えて SECURITY.md が新規作成され、脆弱性報告のポリシーが公式に整備された点は、企業環境での導入審査において一次情報として参照できる材料となる。