Research note · internal · draft

GPT-5.5 Pro をリサーチ/Deep Research ワークフローでどう使うか

作成 2026-05-24 JST 想定読者: 筆者本人 + 少数の AI に明るい読者 トーン: 実務判断・やや批判的
凡例
FACT 公式一次情報 X コミュニティ観測(網羅性なし) INTERP 筆者解釈

0. 結論ファースト

1. 公式情報の整理(事実)

FACT 出典: OpenAI「Introducing GPT-5.5」https://openai.com/ja-JP/index/introducing-gpt-5-5/(2026-04-23 公開、2026-04-24 更新、2026-05-24 時点参照)

1.1 ラインアップと提供範囲

INTERP 単価 6 倍差でも、必要トークン数の削減効果を踏まえれば「実コスト差は単価比ほど開かない」が公式のロジック。Pro が長考でトークンを増やすケースは別問題で、検証が必要。

1.2 公式が押し出している強み

公式ベンチマーク(抜粋)

ベンチマークGPT-5.5GPT-5.5 ProGPT-5.4 ProClaude Opus 4.7Gemini 3.1 Pro
BrowseComp84.4%90.1%89.3%79.3%85.9%
GeneBench25.0%33.2%25.6%
FrontierMath Tier 435.4%39.6%38.0%22.9%16.7%
Humanity's Last Exam (with tools)52.2%57.2%58.7%54.7%51.4%
MRCR 512K–1M74.0%32.2%
読み方の注意
Humanity's Last Exam では GPT-5.4 Pro が GPT-5.5 Pro を上回る。「Pro なら必ず最新が上」と思い込まないこと。MRCR の改善も「検索的参照が得意になった」と読むに留め、全文を細部まで握っている保証ではない。

1.3 公式が挙げる科学研究の具体例

1.4 安全性メモ

GPT-5.5 は Preparedness Framework で bio/chem とサイバーで High(サイバーは Critical 未満)。Pro リリースに合わせて safeguards 強化。INTERP 学術解説は通っても、運用詳細を出させようとすると拒否される前提で設計する方が安全。

1.5 Deep Research(公式ページ)

FACT 出典: https://openai.com/ja-JP/index/introducing-deep-research/(2025-02-02 公開、2026-02-10/2026-04-24 更新、2026-05-24 時点参照)

実務上のキー
Deep Research は 引用と網羅性のための装置であって、推論の鋭さを保証しない。引用元の信頼性評価、矛盾の解消、議論の含意は別の頭脳(GPT-5.5 Pro や人間)で詰める必要がある。

2. X/コミュニティの声(2026-03-25〜2026-05-24)

X 以下は x_search 経由で観測した範囲のサマリ。網羅性は保証しない。低情報量のハイプは除外し、具体的な使い分け・批判・失敗報告に絞る。

2.1 OpenAI 公式アカウント(一次情報)

INTERP Instant 系は「日常チャット底上げ」、Pro 系は「重い案件用の別商品」。リサーチ用途で Instant を多く呼んでも Pro の代わりにはならない、と前提を置く。

2.2 GPT-5.5 Pro と Deep Research の使い分け

2.3 研究パートナー的な使い方

2.4 マルチモデル併用パターン

Pro + Claude Opus/Sonnet + Gemini を並列に走らせて統合する運用が一定支持。Pro は重い推論・バックエンド・ロジック、他モデルは長文脈・クリエイティブ・フロントエンドで分担。INTERP 本稿は Pro 中心なので深追いしないが、「並列リサーチ統合」ワークフロー(4.5)で一部援用。

2.5 批判・制約(X 観測)

3. GPT-5.5 Pro をリサーチで使う/使わないユースケース

INTERP ここからは公式と X 観測を踏まえた解釈。

3.1 本命ユースケース

  1. Deep Research の後段としての統合・矛盾検出・含意導出。「事実集積を Deep Research、推論を Pro」という機能差を最大限活かす。第 1 候補。
  2. 論文・技術文書・コード・PDF への敵対的レビュー。外部ウェブを引かない案件で Pro 単独が刺さる。Deep Research を呼ぶと論点がぼやけることがある。
  3. リサーチアジェンダ/実験設計/methods 批評と再設計。推論の質が成果物の質を決める領域。
  4. インタビュー設計/質問生成/プローブ作成。言い回しの細やかさと文脈把握が効く領域。
  5. 情報源信頼性監査。Deep Research が引いた URL の出版主体・利益相反・一次/二次/三次・撤回履歴をチェックリストで構造化。
  6. 意思決定メモ化。選択肢・基準・トレードオフ・推奨・反対意見の固定フォーマット。

3.2 避けるべきユースケース

3.3 ユースケース選定の簡易意思決定ツリー

  1. 外部ソースから新しい事実を取りに行く必要があるか? → Yes: Deep Research。
  2. 手元の材料への推論/構造化/批判が成果物本体か? → Yes: GPT-5.5 Pro。
  3. 誤差コストが Pro 利用差より明確に大きいか? → Yes: Pro。No: 一段安いモデル。
  4. 成果物が人間または別システムで検証可能か? → No: Pro でも救えない。要件定義を見直す。

4. 具体的なプロンプト/ワークフロー

すべて「Deep Research か Pro か」を最初に決めてから流す前提。

4.1 ソースファースト・ブリーフィング(Deep Research 起点)

Step 1: Deep Research に渡すプロンプト

あなたは <領域名> のリサーチアナリストです。以下の論点について、
2024-01 以降の一次情報を中心に、複数の独立ソースで裏取りしてください。

論点:
1. <論点 1>
2. <論点 2>
3. <論点 3>

出力フォーマット:
- 各論点ごとに、合意されている事実 / 議論中の点 / 明確に反対意見がある点を区別
- それぞれに最低 2 つの引用を付与
- 反証や限界も明示
- 信頼度(A/B/C)と理由を脚注
- 最後に open question リスト

Step 2: GPT-5.5 Pro に渡すプロンプト

以下は Deep Research が生成したレポートです。あなたは批判的なエディタとして、
次の作業を行ってください。出典の本文を直接参照していないので、引用が主張を
本当に支えているかを文面から推定し、不確実な箇所には「未検証」マークを付ける。

1. 主張と引用の対応表(主張 / 引用元 / 主張を支える度合い 0-3)
2. 引用同士の矛盾・温度差を列挙
3. 抜けている代替仮説/反対意見の候補を 3 つ以上
4. 次に Deep Research に投げ直すべきフォローアップ質問を 5 つ
5. 私が意思決定するうえで真に重要な事実を 5 件、優先度順に
注意
Pro に「外部ソースを引かせない」。Pro が新しい URL を出してきたら基本的に疑い、再度 Deep Research に投げ直して担保する。

4.2 敵対的レビュー

あなたは厳しい査読者です。私の提案を受け入れる前提を捨て、以下の観点で
批判的レビューを行ってください。妥協点や前向きな評価は最後にまとめてください。

材料:
<本文を貼り付け>

レビュー観点:
- 主張と証拠のミスマッチ
- 隠れた前提
- 代替仮説 / 競合手法
- 想定読者にとっての論理的飛躍
- 反例・コーナーケース
- 統計的・実験的設計の弱点
- 影響範囲を狭めるべき箇所

出力:
1. 直して欲しい順に欠陥リスト(重大度 H/M/L)
2. それぞれの修正案(最低 2 案、トレードオフ付き)
3. 私が現状で誇張している主張の言い換え案
4. 最後に、評価できる点を 3 つだけ

INTERP Pro はヘッジが強いので、「妥協点・前向き評価は最後」と明示しないと褒めから入り批判が薄まる。

4.3 ディシジョンメモ化

以下を入力に、社内意思決定メモを 1 枚で作ってください。
推測は推測と明示し、根拠リンクが取れない箇所は「要追加調査」とする。

入力:
- Deep Research レポート: <貼り付け>
- 敵対的レビュー: <貼り付け>

出力フォーマット:
1. TL;DR (3 行)
2. 推奨アクションと信頼度(A/B/C)
3. 選択肢比較(最低 3 案、評価軸を 4 つ以上、表形式)
4. 主要前提と、もしそれが崩れたら結論が変わる感度分析
5. 次に潰すべき不確実性 5 件と、それぞれの検証コスト
6. 反対意見セクション(自分が間違っている可能性の最強の論拠)

4.4 ソース信頼性監査

以下は Deep Research が引いた URL リストです。各 URL について、次の観点で
構造化評価を行ってください。あなたは新しい URL を導入してはいけません。

評価観点:
- 出版主体(学術/政府/業界/メディア/個人)
- 一次/二次/三次
- 著者の専門性と利益相反の有無(推定で可。根拠も書く)
- 引用カウントや再現性の手がかり(推定)
- 撤回・訂正歴の可能性(推定)
- このレポート文脈での使用適性 0-3
- 1 行コメント

4.5 並列リサーチ統合

以下は同じ問いに対する 3 種類のレポートです。あなたは統合エディタとして、
合意点・対立点・盲点を抽出し、最終レポートに統合してください。

入力:
- Report A (GPT-5.5 Pro):
- Report B (Deep Research):
- Report C (別モデル):

タスク:
1. 共通する主張(強い合意)
2. 1 つだけが言及しているユニークな主張(要追加検証)
3. 直接矛盾している箇所
4. どのレポートも触れていないが、本来踏むべき論点
5. 最終的な統合レポート(章立てを再設計してよい)
6. 引用の取り扱い: 元レポートの引用を残し、出所を明記

INTERP matching の偏り(同事実の別表現)で混乱しがち。「同義表現は同義として扱え」と一言入れるとブレが減る。

4.6 コンフィデンス・レジャー

私が現在持っている命題と確信度をリストアップします。あなたは次の作業を
行ってください。

入力:
- 命題リスト: <命題, 現在の確信度 0-1, 根拠サマリ>

タスク:
1. 各命題の確信度の妥当性をレビュー(過信/過小)
2. 確信度を更新するために必要な証拠の種類
3. 同じ証拠で同時に動く命題群(独立性チェック)
4. 一番安く確信度を動かせる「次の調査」を 3 つ

「何を調べれば一番動くか」を可視化できるので、Deep Research 呼び出しの優先順位付けに使える。

5. 制約と批判

5.1 構造的に残るリスク

5.2 「Pro でも救えない」案件の見分け方

5.3 ベンチマーク数字の読み方の注意

6. 筆者向けの結論

姿勢
GPT-5.5 Pro は「賢い友人」ではなく 高いがよく訓練されたコンサルタント。雑に呼ばず、案件を選び、検証コストとセットで運用する。

付録 A. 出典と注釈

公式(一次情報)

X / コミュニティ(観測範囲限定。網羅性なし)

注意
X 由来のサマリは x_search の検索範囲(2026-03-25〜2026-05-24、4 クエリ)で観測できた範囲に限られる。網羅性は保証しない。公式数値・Unutmaz・Naskręcki 事例・ベンチマークは公式記載に基づき、独自再現検証は行っていない。「結論ファースト」「ユースケース選定」「プロンプト集」「制約解釈」は公式と X 観測を踏まえた筆者解釈。

付録 B. クイックリファレンス

状況第一選択役割
領域の現状把握Deep Research引用付きで広く取る
Deep Research の検証・統合GPT-5.5 Pro矛盾検出、含意導出
論文 / 提案の敵対的レビューGPT-5.5 Pro弱点・反論
実験設計の批評GPT-5.5 Pro代替仮説、交絡
引用付きレポート出力Deep Research仕上げ前
意思決定メモ化GPT-5.5 Pro構造化、感度分析
雑要約・翻訳・校正GPT-5.5 Instant 等コスト最適化
最新動向(昨日今日)Deep Research → Pro 統合知識カットオフ回避
避ける状況理由
Pro 単独で引用を作らせる引用偽装・取り違えリスク
検証できないドメインで Pro 任せ誤差が救えない
「会話 default」を Pro にするコスト効率が悪い
ベンチマーク数字をそのまま現場性能と読む非単調・分布外で脆い