IBMは2026年5月16日、Hugging Face上で「Granite Embedding Multilingual R2」を公開した。Apache 2.0ライセンスでの配布、32Kトークンのコンテキスト長、100Mパラメータ未満クラスにおける多言語検索品質の高さが特徴として挙げられている。
このリリースが意味するのは、RAG(検索拡張生成)の前段である「埋め込みモデル」の選択肢が、オープンかつ商用利用に耐える形でさらに広がったということである。多くの日本企業が直面している論点は二つある。第一に、OpenAIやCohereの埋め込みAPIに依存すると社内文書を外部送信せざるを得ない点。第二に、多言語かつ長文のドキュメントを扱うと、512〜8Kトークン制限のモデルでは細かくチャンク分割する必要があり、検索精度とパイプライン複雑度のトレードオフが発生する点である。
Granite R2はこの二つに対し、オンプレ/VPCホスト可能なApache 2.0ライセンスと、32Kトークンの長文対応で応える設計になっている。100M未満という小型サイズはGPUなしのCPU推論や、エッジでの社内検索ユースケースにも射程を広げる。
一方で、実運用に持ち込む際は日本語固有の検索品質、特にBM25併用時のリランキング挙動、ドメイン特化文書での再現率を自前で測る必要がある。モデルカードに記載された評価ベンチマークと、自社データでの実測値はしばしば乖離する。導入判断者は、既存APIとのコスト比較表(月間トークン量×単価 vs 自社GPU運用コスト)と、日本語Recall実測値の二点を揃えてから切り替えを判断することが重要である。