OpenAIは2026年6月17日、生命科学研究向けの評価基準「LifeSciBench」を公開した。AIが現実の研究タスクや意思決定をどこまでこなせるかを測る内容で、173人の科学者が作問・検証した750タスクで構成される。最も高性能なモデルでも合格率は36.1%にとどまった。
このベンチマークの特徴は、知識量を問うのではなく「証拠から推論できるか」「不確実な状況で判断できるか」「業務制約の中で動けるか」という実務遂行力を測る点にある。専用モデルGPT-Rosalindは36%(前モデル26%)で着実な前進を示した。顧客にはAmgen・Moderna・Novoといった大手製薬・バイオが並ぶ。
製薬・バイオ企業がAI導入を判断する際、36.1%という公開数値は過大評価を避ける具体的な物差しになる。専門家が作問・検証した点が、信頼性の根拠として効いている。
『【AI研究報告】現実の生命科学研究を評価する新ベンチマーク「LifeSciBench」発表、最新モデル』🧐 ⚡️現場の「泥臭い研究プロセス」を評価する新指標