GPT-5.6 Sol公開｜安全検証70万GPU時間の中身

モデル公式X 06/28 09:04

AI TREND

OpenAI：GPT‑5.6 Sol公開

OpenAIが新モデル「GPT‑5.6 Sol」を公開し、高リスクなサイバー活動や繰り返しの悪用に対するリアルタイム保護を強化した安全対策を前面に打ち出した。

3 の要点を3分で

OpenAIが新モデル「GPT‑5.6 Sol」を公開した。同社はこれまでで最も堅牢な安全対策を組み込んだとし、高リスクなサイバー活動や繰り返される悪用に対するリアルタイムの保護を強化したと説明している。

特徴は、性能だけでなく安全対策の中身を前面に出した点である。専門家が実際に攻撃を試みる人手の攻撃検証（レッドチーミング）に加え、自動テストを大規模に実施し、A100換算で70万GPU時間超を投入したと開示した。生成AIの普及に伴いサイバー攻撃支援や悪用の懸念が増すなか、検証規模の数値開示は企業がAIを業務導入する際の判断材料になる。

あわせて、計画・反復・ツール連携を要するコマンドライン作業を測る指標「Terminal‑Bench 2.1」で新たな最高水準を記録したとも示している。安全性と実務性能の両面を打ち出した発表となった。

GPT-5.6 Sol公開｜安全検証70万GPU時間の中身の本文内説明図 — 図解: GPT‑5.6Sol公開 - OpenAIが新モデルGPT‑5.6Solを公開し高リスクなサイバー活動や繰り返しの悪用

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

新モデル「GPT‑5.6 Sol」が公開、安全対策を前面に提示
A100換算で70万GPU時間超の自動テストを投入と開示
専門家による人手の攻撃検証に加え自動テストを大規模実施

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: OpenAI
何を: GPT‑5.6 Sol公開
いつ: 2026年6月26日
どこで: 公式X
なぜ: 安全対策強化
どのように: 人手検証と自動テスト

背景

OpenAIはモデルのリリースごとに安全性検証を積み重ねてきた。今回は専門家が実際に攻撃を試みる手法（人手によるレッドチーミング）に加え、自動テストを大規模に実施したという。生成AIの普及に伴い、サイバー攻撃支援や悪用の懸念が増しており、各社が安全対策を競う流れにある。

なぜ今注目なのか

新モデルの性能だけでなく安全対策の中身が前面に出された点が特徴である。企業がAIを業務導入する際、悪用耐性やリスク管理は意思決定の重要要素となるため、検証規模の開示は判断材料になる。

GPT‑5.6 Solが前面に出したのは性能でなく安全対策

OpenAIが新モデル「GPT‑5.6 Sol」を公開し、まず打ち出したのは推論性能ではなく安全対策だった。同社は「これまでで最も堅牢な安全スタック」と称し、高リスクなサイバー活動や繰り返される悪用に対するリアルタイムの保護を強化したと説明している。

GPT‑5.6 Sol launches with our most robust safety stack yet.
We strengthened real-time protections against high-risk cyber activity and repeated misuse, then spent weeks hardening the system with human red teaming and over 700,000 A100-equivalent GPU hours of automated testing.
出典: OpenAI (X)

上の投稿は、専門家が実際に攻撃を試みる人手の攻撃検証（レッドチーミング）に加え、自動テストにA100換算で70万GPU時間超を投入し、数週間かけてシステムを堅牢化したと述べている。モデルの賢さよりも「どこまで悪用に耐えるか」を数値で示した点が、今回の発表の核になっている。

70万GPU時間という数値が企業の判断に効く理由

A100換算で70万GPU時間超という規模は、安全検証が片手間でないことを示す具体的な数値である。生成AIを業務に入れる企業にとって、悪用耐性やリスク管理は導入可否を左右する要素であり、これまではモデル側が「どれだけ検証したか」を外から測りにくかった。

今回のように検証規模が開示されると、社内のセキュリティ審査やベンダー比較で使える客観材料になる。逆に、検証プロセスを公開していないモデルは、調達の場で説明を求められる場面が増える。性能ベンチマークだけでなく「安全検証の透明性」が、企業の評価軸に加わったことを意味する。

ターミナル作業の自動化でも最高水準を主張

安全対策と並んで、OpenAIはコマンドライン作業の性能も示している。計画・反復・ツール連携を要する複雑なコマンドライン作業を測る指標「Terminal‑Bench 2.1」で、GPT‑5.6 Solが新たな最高水準を記録したという。

GPT‑5.6 Sol sets a new state of the art on Terminal‑Bench 2.1, which tests complex command-line workflows requiring planning, iteration, and tool coordination.
出典: OpenAI (X)