NVIDIA、視覚・音声・言語を統合したオープンモデル「Nemotron 3 Nano Omni」公開

NVIDIAは2026年4月29日、視覚・音声・言語を単一モデルに統合したオープンマルチモーダルモデル「Nemotron 3 Nano Omni」を公開した。アーキテクチャは30B-A3Bのハイブリッド混合エキスパート（MoE）で、視覚エンコーダと音声エンコーダをモデル内に内包する構成を取る。

従来のAIエージェントは、視覚・音声・言語でそれぞれ別モデルを用意し、モデル間でデータを受け渡す過程でコンテキストと時間を失っていた。Nemotron 3 Nano Omniはこれを1モデルに集約することで、同等の対話性を持つ他のオープンオムニモデル比で最大9倍のスループットを達成したとNVIDIAは公表している。複雑なドキュメント解析・映像・音声理解を対象とする6つのリーダーボードでトップを記録した点も、汎用性と品質の両立を示す材料となる。

実装面では、フランスのH CompanyがOSWorldベンチマーク向けに1920×1080のネイティブ解像度でGUI操作エージェントを構築した事例が示されている。採用企業としてFoxconn・Palantir・H Company・Aibleが挙げられ、Dell・DocuSign・Oracleが評価中と位置付けられており、エンタープライズ領域での評価が先行している。

日本の意思決定者にとっての含意は明確だ。モデルの重み・データセット・学習手法はオープン公開され、Hugging Face・OpenRouter・NVIDIA NIM経由で入手できる。データ主権や監査要件が強く働く金融・公共・製造領域でも、外部APIにデータを送らない形でマルチモーダルエージェントを構築する経路が具体化した。一方で、視覚・音声・言語を個別モデルで束ねてきた既存のエージェント基盤は、単一オムニモデルを前提にしたアーキテクチャ再設計の圧力にさらされる。

NVIDIA、視覚・音声・言語を統合したオープンモデル「Nemotron 3 Nano Omni」公開の本文内説明図 — 図解: 3モダリティ統合 - 視覚・音声・言語を1モデルに集約し推論を一本化する

押さえるポイント

視覚・音声・言語を単一モデルに統合し、エージェントの推論パイプラインを一本化
同等のオープンオムニモデル比で最大9倍のスループットを達成
ドキュメント解析・映像・音声理解の6つのリーダーボードでトップを記録

5W1Hでサクッと理解 誰が NVIDIA 
 何を オムニモデル公開 
 いつ 2026年4月29日 
 どこで Hugging Face等 
 なぜ エージェント効率化 
 どのように 30B-A3B MoE 

何が起きたか

要点NVIDIAが視覚エンコーダと音声エンコーダを内包する30B-A3BハイブリッドMoEのオープンマルチモーダルモデル「Nemotron 3 Nano Omni」を公開し、重み・データセット・学習手法を Hugging Face、OpenRouter、NVIDIA NIM 経由で配布開始した。

3つの視点で読む

開発現場

視覚・音声・言語の各モデル間でデータを受け渡す従来の構成では、コンテキスト損失と遅延が積み重なる。30B-A3BのハイブリッドMoEで3つのモダリティを1モデルに収め、H CompanyがOSWorldベンチマークで1920×1080ネイティブ解像度のGUI操作エージェントを構築した事実は、エージェント実装の設計単位が「複数モデル連携」から「単一オムニモデル」へ移ることを示す。

事業判断

オープンオムニモデル比で最大9倍のスループットという公表値は、同等品質を前提としたGPU当たりの処理単価を直接押し下げる。Foxconn・Palantir・H Company・Aibleが採用済み、Dell・DocuSign・Oracleが評価中という採用企業の広がりは、クローズドAPI依存のエージェント基盤に対する実用段階の代替肢が登場したことを意味する。

リスク・ルール

重み・データセット・学習手法をオープン公開し、NVIDIA NIMによるオンプレ展開経路も確保されているため、データ主権要件や監査要件を持つ日本の金融・公共領域でも、外部API送信を伴わない形でマルチモーダル処理を実装する選択肢が具体化した。

追い風と向かい風

追い風を受ける側

NVIDIANemotronブランドのオープンモデル戦略とNIM・DGX製品群を束ねた形で、エージェント基盤のデファクト候補を自社エコシステムに引き込める
Foxconn・Palantir・H Company・Aible採用企業として公表され、マルチモーダル統合モデルを前提にした製品差別化を先行できる
オンプレ志向の企業ユーザーオープンウェイトで提供されるため、データ主権・監査要件を満たしながらマルチモーダル処理を社内展開できる

向かい風を受ける側

視覚・音声・言語を別モデルで束ねる既存エージェント基盤ベンダー同等機能を単一モデルで最大9倍のスループットで実行できる選択肢が登場し、アーキテクチャ再設計を迫られる
クローズドな同等オムニモデルのAPI提供事業者オープン配布かつ高効率のモデルが競合として市場に登場し、価格とロックインの前提が揺らぐ

今やるべきこと

技術判断 確認する Hugging Face配布の重みとライセンス、NVIDIA NIM経由のデプロイ要件、視覚・音声エンコーダの入力仕様を確認する

事業判断 比較する現行のマルチモデル構成のGPU時間・レイテンシ・ライセンス費用と、Nemotron 3 Nano Omni単一構成のコストを同一ワークロードで比較する

実装・検証 測る自社のドキュメント解析・音声書き起こし・GUI操作のいずれか1タスクで、スループット・成功率・エンドツーエンド遅延を計測する

時系列タイムライン

2026年4月29日 NVIDIAがNemotron 3 Nano Omniを公開。Hugging Face・OpenRouter・NVIDIA NIMで配布開始
2026年4月29日 Foxconn・Palantir・H Company・Aibleが採用企業として公表、Dell・DocuSign・Oracleが評価中と公表
2026年4月29日 H CompanyがOSWorldベンチマークで1920×1080ネイティブ解像度のGUI操作エージェントに活用する事例を公開