QIMMA始動：アラビア語LLM評価の信頼性を品質検証で再構築する初の統合リーダーボード

UAEのTechnology Innovation Institute（TII）が2026年4月21日にHugging Face上で公開したQIMMA（قِمّة、アラビア語で『頂上』の意）は、アラビア語LLMのリーダーボードとして初めて『評価データ自体の品質』に正面から取り組んだ統合プラットフォームである。

対象は14ベンチマーク・109サブセット・52,000件超のサンプルにおよび、文化・STEM・法律・医療・安全・詩文学・コーディングの7ドメインをカバーする。中核となる品質検証パイプラインは2段構成で、Stage 1ではQwen3-235B-A22B-InstructとDeepSeek-V3-671Bによる10点ルーブリック自動評価を行い、Stage 2でネイティブ話者が人手レビューを実施する。

この検証により、ArabicMMLUで3.1%（436件）、MizanQAで2.3%（41件）といった系統的な品質問題が発見された。さらにコードベンチマークでは3LM HumanEval+の88%、3LM MBPP+の81%のプロンプトが修正され、アラビア語リーダーボードとして初めてコーディング評価が統合された。

評価フレームワークにはLightEval・EvalPlus・FannOrFlopが採用され、サンプル単位の推論出力が公開されるため、モデル間のスコア差をプロンプト単位で切り分けて検証できる。これはベンチマークのブラックボックス化に対する明確なアンチテーゼであり、日本語を含む他の非英語言語のベンチマーク設計にも転用可能な方法論として参照価値が高い。

QIMMA始動：アラビア語LLM評価の信頼性を品質検証で再構築する初の統合リーダーボードの本文内説明図 — 図解: 2段階品質検証 - 自動評価と人手レビューで既存ベンチの欠陥を修正する

押さえるポイント

14ベンチ・52,000件超サンプルを7ドメインで評価する統合基盤
Qwen3-235BとDeepSeek-V3による自動評価と人手レビューの2段構成
ArabicMMLUで436件・MizanQAで41件の系統的品質問題を発見修正

5W1Hでサクッと理解 誰が TII 
 何を アラビア語LLM評価基盤公開 
 いつ 2026年4月21日 
 どこで Hugging Face 
 なぜ 評価スコアの品質問題解決 
 どのように 2段階品質検証パイプライン 

何が起きたか

要点UAEのTII（Technology Innovation Institute）がHugging Face上でアラビア語LLM向け品質検証特化型リーダーボード「QIMMA」を公開した。14ベンチマーク・109サブセット・52,000件超のサンプルを7ドメインで評価し、既存ベンチマークの系統的な品質問題を修正した統合プラットフォームである。

3つの視点で読む

開発現場

品質検証パイプラインはQwen3-235B-A22B-InstructとDeepSeek-V3-671Bによる10点ルーブリック自動評価（Stage 1）とネイティブ話者の人手レビュー（Stage 2）の2段構成で、ArabicMMLUで3.1%（436件）、MizanQAで2.3%（41件）の誤りを検出した。評価フレームワークはLightEval・EvalPlus・FannOrFlopを採用し、サンプル単位の推論結果を公開するため、スコア差の要因をプロンプト単位で切り分けできる。

事業判断

オープンソース・ネイティブアラビア語99%・品質検証・コード評価・推論結果公開の5条件を満たす唯一のリーダーボードであり、アラビア語モデルの比較軸が統一される。TIIはFalconシリーズの提供元であり、評価基盤を押さえることでアラビア語LLM市場の参照点を握る。

リスク・ルール

法律・医療・安全を含む7ドメインの評価により、規制領域での応答品質が公開形式で可視化される。アラビア語圏での政府・公共調達時のモデル選定時、評価の妥当性そのものが審査対象になる流れを加速させる。

追い風と向かい風

追い風を受ける側

TII（Technology Innovation Institute）アラビア語LLM評価の標準化基盤を先行して押さえ、Falconシリーズとの接続で評価・開発両面の影響力を確保
アラビア語LLM開発チーム全般修正済みプロンプトと推論出力の公開により、評価結果の再現・デバッグコストが下がる
非英語言語のベンチマーク設計者LLM自動評価＋ネイティブ人手レビューの2段パイプラインが他言語に転用可能な方法論として提示された

向かい風を受ける側

既存アラビア語ベンチマーク単独での順位訴求ArabicMMLUやMizanQA等で系統的な品質問題が数値化され、単一ベンチのスコアだけでは比較材料として通用しにくくなる
推論出力非公開のリーダーボードサンプル単位の再現性を提供するQIMMAが標準化されると、ブラックボックス型の順位付けは信頼性で見劣りする