検索エージェント、SFTのみで産業界超え｜OpenSeeker-v2

OpenSeeker-v2は、検索エージェント開発の「常識」に対する明確な反証として登場した。従来、BrowseCompやxbenchといった深い検索能力を測るベンチマークで最高水準を狙うには、事前学習・継続事前学習（CPT）・教師ありファインチューニング（SFT）・強化学習（RL）を連結した産業規模のパイプラインが必要とされてきた。Alibaba系のTongyi DeepResearchはその典型だった。

今回の報告は、その前提を3点のデータ合成改良のみで覆している。具体的には、①知識グラフの規模を拡大して探索の多様性を確保する、②ツールセットを拡張してエージェントが扱える機能範囲を広げる、③ステップ数が少ない（＝情報量が薄い）軌跡を厳格に除去する、という改良だ。これにより「情報量が多く難度の高い軌跡」だけが訓練データとして残り、わずか10,600件のSFTで4ベンチマーク全てでTongyi DeepResearchを上回った。

数値で見ると、BrowseCompは43.4%→46.0%、BrowseComp-ZHは46.7%→58.1%、Humanity's Last Examは32.9%→34.6%、xbenchは75.0%→78.0%と、特に中国語検索タスクで大きな伸びを示している。30Bクラス・ReActパラダイムという制約下での比較である点も、実務適用時のコスト感と直結する。

注目すべきは、これを純粋な学術チームが達成した点だ。RLパイプラインの運用コストを負担できない研究者や小規模組織にとって、「データの質を磨けばSFTのみで届く」という具体例が公開された意義は大きい。モデル重みのオープンソース公開予定と合わせ、検索エージェント研究の参入障壁を構造的に下げる一本となる。

検索エージェント、SFTのみで産業界超え｜OpenSeeker-v2の本文内説明図 — 図解: SFTのみで産業界超え - 10,600件の高難度軌跡が4ベンチでTongyi DeepResearchを上回った構造

押さえるポイント

BrowseCompで46.0%、xbenchで78.0%など4ベンチマークで新SOTAを達成
CPT+SFT+RLのTongyi DeepResearchを全指標で上回り、SFTのみで産業界越え
訓練データわずか10,600件、30BクラスReActパラダイムで学術チームが達成

5W1Hでサクッと理解 誰が 学術研究チーム 
 何を 検索エージェントSOTA達成 
 いつ 2026年5月6日 
 どこで arXiv 
 なぜ データ効率の実証 
 どのように SFTのみで訓練 

何が起きたか

要点純粋な学術チームが、SFTのみ・訓練データ10,600件で訓練した30BクラスのOpenSeeker-v2が、4つの検索エージェントベンチマークで産業界のCPT+SFT+RLパイプラインを上回るSOTAを達成したと発表した。

3つの視点で読む

開発現場

RLを含む重厚なパイプラインなしに、SFTのみで検索エージェントの最高水準へ到達できる設計が提示された。知識グラフのスケール拡大、ツールセット拡張、厳格な低ステップフィルタリングというデータ合成側の改良だけで、Tongyi DeepResearchの43.4%/46.7%/32.9%/75.0%を46.0%/58.1%/34.6%/78.0%まで押し上げたことは、訓練レシピ設計の重心が「アルゴリズム」から「軌跡データの情報量と難度」に移ったことを具体的数値で示している。

事業判断

検索エージェント開発は産業界の巨大パイプライン前提から、10,600件規模のデータで30Bクラスに収まる構成へと参入障壁が下がった。モデル重みのオープンソース公開により、学術機関・スタートアップ・個人開発者が最前線の検索エージェントを自社要件に合わせて微調整できる選択肢が増え、商用クローズドAPIへの依存度を見直す材料となる。

リスク・ルール

純粋な学術チームによる公開モデルが産業SOTAを超えた事実は、検索エージェント分野の技術が少数の産業プレイヤーに閉じないことを示す。オープン重みの流通が広がることで、第三者による再現検証・安全性評価が進めやすくなる一方、検索行動を伴うエージェントの出力検証や誤情報拡散への運用責任は利用者側に移る。

追い風と向かい風

追い風を受ける側

学術研究機関・スタートアップ10,600件・SFTのみで最前線に到達できる設計が公開され、巨大計算資源なしでも検索エージェント研究に参入しやすくなる
オープンソース開発者コミュニティ30BクラスSOTAのモデル重みが公開予定で、下流タスクへの適用・微調整の基盤が手に入る
データ合成・ベンチマーク研究者知識グラフ規模・ツールセット・低ステップ除去という具体的な改良軸が定量結果と共に示された

向かい風を受ける側

重厚パイプライン前提の産業プロダクトCPT+SFT+RLを前提としたTongyi DeepResearchが全4指標で下回り、投資対効果の再評価が必要となる
クローズドな検索エージェントAPI提供者同等性能のオープン重みが出回ることで、ブラックボックスAPIへの依存理由が弱まる

今やるべきこと

技術判断 比較する自社で利用中の検索エージェントのBrowseComp/xbenchスコアとOpenSeeker-v2の46.0%/78.0%を比較し、30Bクラスへ置き換える場合の性能差を確認する

事業判断 定義する SFTのみ・10,600件というデータ効率を前提に、自社検索エージェントのPoC成功条件を「ベンチマーク達成率」「微調整コスト」「公開重み利用可否」で定義する

実装・検証 試すモデル重み公開後にReActパラダイムで自社ドメインのクエリを投入し、成功率・介入回数・ツール呼び出し回数を測る

時系列タイムライン

2026年5月6日 OpenSeeker-v2の論文がarXivで公開。BrowseComp 46.0%、BrowseComp-ZH 58.1%、HLE 34.6%、xbench 78.0%でSOTA達成を報告
公開予定 OpenSeeker-v2のモデル重みをオープンソースとして公開予定
比較対象 Tongyi DeepResearch（CPT+SFT+RLパイプライン）が43.4%/46.7%/32.9%/75.0%を記録していた