Microsoftは「Build 2026」に合わせ、端末上で動くローカルAI実行基盤「Foundry Local」の1.2.0を2026年6月4日に公開した。リアルタイム音声認識(ASR)が40言語以上に拡張され、採用モデルはNVIDIA Nemotron 3.5 ASR Streaming Multilingualである。
対応端末はRaspberry Pi 5、NVIDIA Jetson、AWS Graviton、Ampereといった省電力ARM64端末。Windows側はWindows ML 2.0へ更新され、追加インストールなしでNPU/GPU高速化が使える。C#/Python/JavaScript/Rust/C++の5言語SDKが推論の途中キャンセルに対応する。
この基盤はGitHub Copilot CLIの音声入力にすでに組み込まれ、音声がマシン外に出ず単語誤り率は約8%という実装結果が示された。クラウド依存・通信遅延・トークン課金なしで音声を端末側で完結できる点は、プライバシーと主権を重視する国内企業の導入判断に直結する。