最高でも合格36%｜OpenAIが創薬AIの実力を測る新指標

𝕏 詳細分析学術米国メガテックオンライン 06/18 18:07

AI TREND

OpenAI：LifeSciBench公開

OpenAIが、AIが現実の生命科学研究のタスクや意思決定をどこまでこなせるかを測る評価基準「LifeSciBench」を公開した。専門家が問題を作成・検証し、最も高性能なモデルでも合格率は36.1%にとどまった。

3 の要点を3分で

OpenAIは2026年6月17日、生命科学研究向けの評価基準「LifeSciBench」を公開した。AIが現実の研究タスクや意思決定をどこまでこなせるかを測る内容で、173人の科学者が作問・検証した750タスクで構成される。最も高性能なモデルでも合格率は36.1%にとどまった。

このベンチマークの特徴は、知識量を問うのではなく「証拠から推論できるか」「不確実な状況で判断できるか」「業務制約の中で動けるか」という実務遂行力を測る点にある。専用モデルGPT-Rosalindは36%(前モデル26%)で着実な前進を示した。顧客にはAmgen・Moderna・Novoといった大手製薬・バイオが並ぶ。

製薬・バイオ企業がAI導入を判断する際、36.1%という公開数値は過大評価を避ける具体的な物差しになる。専門家が作問・検証した点が、信頼性の根拠として効いている。

最高でも合格36%｜OpenAIが創薬AIの実力を測る新指標の本文内説明図 — 図解: LifeSciBench - OpenAIがAIが現実の生命科学研究のタスクや意思決定をど

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

最高性能モデルでも合格率36.1%。自動化はまだ遠いと数値で明示
173人の科学者が作問・750タスク。知識量でなく実務遂行力を測る
専用モデルGPT-Rosalindは36%(前モデル26%)で着実な前進を記録

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: OpenAI
何を: LifeSciBench公開
いつ: 2026年6月17日
どこで: オンライン
なぜ: 研究支援力を測る
どのように: 専門家作問の評価基準

背景

OpenAIは医療・健康分野で「HealthBench」、生命科学向けモデル「GPT-Rosalind」などを展開し、研究現場でのAI活用を進めてきた。生命科学研究は実験設計や論文解釈など専門性が高く、AIの能力を正しく測る共通の物差しが乏しかった。今回はその空白を埋めるべく、研究者が直面する実務的な課題を集めた評価基準として整備された。OpenAIは生命科学向けの特別アクセスプログラムも用意している。

なぜ今注目なのか

最高性能のモデルでも合格率が36.1%という結果は、現時点のAIが生命科学研究の難題をどこまで解けるかという限界を具体的な数値で示している。製薬・バイオ企業がAI導入を検討する際、過大評価を避ける判断材料になる。専門家が作問・検証した評価基準である点が、信頼性の根拠として効く。

最高性能でも合格36.1%という数字の意味

OpenAIは6月17日、AIが現実の生命科学研究のタスクや意思決定をどこまでこなせるかを測る評価基準「LifeSciBench」を公開した。最も高性能なモデルでも合格率は36.1%にとどまった。

Introducing LifeSciBench, an expert-authored, expert-reviewed benchmark for evaluating how AI systems handle real-world life science research tasks and decisions.
出典: Introducing LifeSciBench | OpenAI

この一文は「専門家が作問し、専門家が検証した、現実の生命科学研究タスクと意思決定をAIがどう扱うかを測る評価基準」という意味だ。問題は173人の科学者が作成し、生物学・薬学の研究分野にまたがる750タスクで構成される。合格率36.1%は、知識を問う試験での高得点とは違い、実際の研究現場の難題ではAIがまだ大半を解けないことを共通の物差しで示している。

知識量ではなく『使えるか』を測る設計

LifeSciBenchが従来のベンチマークと違うのは、測る対象が「知っているか」ではなく「研究現場で使えるか」である点だ。X上でも、この設計の転換に注目が集まった。

投稿では、測る軸が「証拠から推論できるか」「不確実な状況で判断できるか」「実際の業務制約の中で動けるか」の3つだと整理されている。知識を答えるだけのテストではなく、研究者が直面する泥臭いプロセスへの対応力を採点する。

この違いが重要なのは、製薬・バイオ企業がAIに期待するのが文献の暗記ではなく、実験設計や意思決定の支援だからだ。合格率36.1%という数字は、その実務的な支援力での現在地を表す。知識テストで高得点を取るモデルが、研究現場では3割台にとどまるという落差そのものが、導入判断の材料になる。

誰が得をし、AI導入判断はどう変わるか

顧客にはAmgen・Moderna・Novoといった大手製薬・バイオが名を連ねる。X上では「中身より座組みが注目かもしれん」という声もあり、評価基準の信頼性を支える顔ぶれに関心が向いている。

得をするのは、AI導入を判断する製薬・バイオの責任者だ。ベンダーの宣伝文句でなく、専門家が作問・検証した750タスクの合格率という公開数値で、研究支援力を見積もれるようになる。

一方で、AIによる研究自動化を過大に売り込む立場には逆風になる。最高性能モデルでも合格率36.1%という数値が公開されたことで、研究の難題が大半未解決である事実が具体的な数字で示されたからだ。OpenAI自身は、専用モデルGPT-Rosalindが36%(前モデル26%)へ改善した差を同じ物差しで示せる立場を確保した。

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

LifeSciBenchが測る7分野のタスク構成と採点ルーブリックが自社の研究プロセスのどこに対応するかを確認する。

事業を決める人へ

自社が想定するAI研究支援の用途と、合格率36.1%が示す現在地との差を比較する。

手を動かす人へ

自社の研究タスクで使うモデルの正解率を、LifeSciBenchの数値と並べて記録する。

時系列タイムライン

過去 OpenAIが医療・健康分野の評価基準HealthBenchを公開
過去 OpenAIが生命科学向けモデルGPT-Rosalindを公開
2026年6月17日 OpenAIが評価基準LifeSciBenchを公開。最高性能モデルでも合格率36.1%
2026年6月18日 X上で『使えるかを測るテスト』『中身より座組み』と話題化

SNSの反応

OpenAI「LifeSciBench」公開、最高でも正解率36%

OpenAIが6/17に生命科学研究向け評価ベンチマーク「LifeSciBench」を公開。173名の科学者と開発し、製薬・バイオ研究の750タスクで構成。専用モデルGPT-Rosalindでも正解率36%(前モデル26%)にとどまり、「知識量」ではなく「実際の研究で使えるか」を測る新指標として注目されている。Amgen・Moderna・Novoが顧客に名を連ねる点も話題。

みんなの反応

35%

33%

32%

『正解率36%』の数値に注目

『知ってるか』より『使えるか』を評価

GPT-5.4の創薬支援に期待

どんな声がある？

『正解率36%』の数値に注目 35%

専用モデルGPT-Rosalindでも研究タスクの正解率が36%（前モデルは26%）にとどまった点に注目が集まる。「自動化にはまだ遠いが着実に前進」という冷静な評価が中心で、AIの現在地を具体的な数値で示した意義を評価する声が多い。製薬・バイオ企業がAI導入を検討する際の現実的な判断材料になるとの見方も。

🔗 OpenAI research and produ…を見る →

実際の投稿

【OpenAIが創薬AIに本腰】 6/17、研究用ベンチマーク「LifeSciBench」を公開。専用モデルGPT-Rosalindでも研究タスクの正解率は36%(前モデルは26%)＝自動化にはまだ遠いが着実に前進。注目は中身より「座組み」かもしれん。顧客はAmgen・Moderna・Novo

『知ってるか』より『使えるか』を評価 33%

従来のAIテストが「知識があるか」を測っていたのに対し、LifeSciBenchは「証拠から推論できるか」「不確実な状況で判断できるか」「業務制約の中で動けるか」を測る点が新しいと評価されている。現場の「泥臭い研究プロセス」を評価する指標として、実用性を重視する転換点だと捉える声が目立つ。

🔗 Automating expert-level m…を見る →

実際の投稿

ここが重要で。今までのAIテストって「知識があるか」しか測ってなかった。LifeSciBenchが測るのは全然違う。 ❶証拠から推論できるか ❷不確実な状況で判断できるか ❸実際の業務制約の中で動けるか要するに「知ってるか」じゃなく「使えるか」のテスト。

GPT-5.4の創薬支援に期待 32%

ベンチマークと同日に公開された「GPT-5.4で創薬研究を補助」とするレポートに注目が集まる。文献調査から実験検証まで一貫支援し、既存の化学反応を改善する「想定外の手法」を提案、専門ラボと連携して実成果を実証したと報告。AIが科学技術の発展に寄与していることを示す動きとして期待の声が上がっている。

🔗 GPT-5.4 drives medicinal …を見る →