OpenBMBが、画像や動画を扱える小型のマルチモーダルAI「MiniCPM-V 4.6」を公開した。商用利用に寛容なApache-2.0ライセンスでオープンソース化され、推論を強化した「Thinking」版や、完全にオフラインで動くスマートフォン向けアプリ(Android v1.9)も合わせて提供される。
コードと学習済みモデルはGitHubとHugging Faceで入手でき、vLLMによる推論基盤への導入手順やOllama配布版も用意された。クラウドに頼らず端末上(オンデバイス)でマルチモーダル処理が完結するため、通信費・プライバシー・遅延の観点で実装上の利点が大きい。
注目すべきは、公式が「万能な本番代替ではない」と用途を線引きした点である。得意なのは単純背景での物体数え、ドキュメント構造の検証、コード構文のフィルタリングといったルールと入力が明確なタスクで、空間推論の一貫性を要する処理では崩れると明言している。導入前に適用範囲を切り分けられる情報開示となっている。
MiniCPM-V 4.6 is not a magic production replacement. It is useful when the task has clear rules, and clean inputs: counting objects in simple backgrounds, validating document structure, filtering code syntax. It struggles when the task requires spatial reasoning consistency or…