PLOSとDataSeer:データ再利用指標開発
画像: AI生成

PLOSとDataSeerが共同開発したのは、学術論文内の研究データ再利用を大規模に計測するLLMベースの指標だ。arXivに掲載されたプレプリントによると、対象論文群のデータ再利用率は43%と計測され、既存の書誌計量手法による推定値を上回った。論文は第30回Annual International Conference on Science and Technology Indicatorsに投稿されている。

従来、研究データがどの程度再利用されているかは、データセットへの引用や特定のリポジトリIDの追跡といった書誌計量手法で推定されてきた。しかしデータ再利用の言及は論文本文の方法論セクションなどに自然言語で書かれることが多く、構造化された引用として残らないケースが大半だった。LLMによる本文解析は、この検出の死角を埋める手段として機能する。

読者にとっての含意は二つある。第一に、オープンサイエンス政策の効果測定の基盤が変わる。データ共有義務化の成否を判断する指標として、生成AIベースの下流効果計測が現実的な選択肢になった。第二に、日本の研究機関・助成機関にとって、評価指標の国際標準化議論に先回りする機会になる。JSTやAMEDのデータマネジメントプラン運用を評価する際、書誌計量だけに頼る枠組みは陳腐化が進む。

一方で留意点もある。LLMによる抽出は誤検出・見落としを含むため、指標として採用する場合は検証サンプルでの精度測定と再現性確保の手順整備が前提となる。論文本体で開示されている手法・評価プロトコルを確認したうえで、自機関の論文サンプルに適用して比較することが、意思決定の出発点となる。