Research note · internal · draft

GPT-5.5 Pro をリサーチ／Deep Research ワークフローでどう使うか

作成 2026-05-24 JST 想定読者: 筆者本人 + 少数の AI に明るい読者トーン: 実務判断・やや批判的

凡例

FACT 公式一次情報 X コミュニティ観測（網羅性なし） INTERP 筆者解釈

0. 結論ファースト

GPT-5.5 Pro は「高コスト・高精度な推論パートナー」。既定チャットには置かず、間違いコストが高く検証可能な案件に絞る。
Deep Research と GPT-5.5 Pro は別物として運用。Deep Research は引用付き外部ソーシング装置、GPT-5.5 Pro は与えた材料への推論・統合・批判の頭脳。補完関係であり置換関係ではない。
本命ユースケース 3 つ。① Deep Research 後段の統合・矛盾検出・含意導出、② 論文／コード／PDF への敵対的レビュー、③ リサーチアジェンダ／実験設計の批評と再設計。
避けるべきユースケース。雑要約・ブレスト・低リスク会話・軽い翻訳、検証コストを取れない案件、引用が要るのに Deep Research を使わず Pro 単独で「ソースっぽい文」を出させる運用（最大の地雷）。
判断ルール（ドラフト）：「期待誤差コスト × 誤差確率」 > 「Pro 利用と非利用の API/時間コスト差」、かつ「人間が成果物を検証可能」のときだけ Pro を呼ぶ。

1. 公式情報の整理（事実）

FACT 出典: OpenAI「Introducing GPT-5.5」https://openai.com/ja-JP/index/introducing-gpt-5-5/（2026-04-23 公開、2026-04-24 更新、2026-05-24 時点参照）

1.1 ラインアップと提供範囲

GPT-5.5 と GPT-5.5 Pro が ChatGPT と API で提供。System Card もこのリリースで更新。
ChatGPT: GPT-5.5 Thinking は Plus/Pro/Business/Enterprise、GPT-5.5 Pro は Pro/Business/Enterprise。Codex は Plus/Pro/Business/Enterprise。
API 価格:
- gpt-5.5 入力 $5 / 1M tok、出力 $30 / 1M tok、コンテキスト 1M
- gpt-5.5-pro 入力 $30 / 1M tok、出力 $180 / 1M tok
- Batch / Flex は半額、Priority は 2.5x
- Codex 上の gpt-5.5 はコンテキスト 400K、Fast は 2.5x コストで生成 1.5x

INTERP 単価 6 倍差でも、必要トークン数の削減効果を踏まえれば「実コスト差は単価比ほど開かない」が公式のロジック。Pro が長考でトークンを増やすケースは別問題で、検証が必要。

1.2 公式が押し出している強み

コンピュータでの仕事を変えるもっとも高機能で直感的なモデル。コーディング／デバッグ／オンライン調査／データ分析／文書作成／ソフトウェア操作／複数ツール横断で「意図をより速く理解し自律的に進める」。
特にエージェント的コーディング、コンピュータ使用、ナレッジワーク、初期段階の科学研究で強い。
レイテンシは GPT-5.4 と同等のトークン単位を維持しつつ性能向上、Codex タスクは少ないトークンで完了。
ナレッジワーク事例: OR、スプレッドシートモデリング、非構造化情報の計画化、データスコアリング／リスク評価、K-1 タックスレビュー。社内 Codex 週次利用は OpenAI 全機能で 85% 超。
科学研究: アイデア探索、エビデンス収集、仮説検証、解釈、次の試行決定の持続的プロセスで他モデルを上回ると主張。

公式ベンチマーク（抜粋）

ベンチマーク	GPT-5.5	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
BrowseComp	84.4%	90.1%	89.3%	79.3%	85.9%
GeneBench	25.0%	33.2%	25.6%	—	—
FrontierMath Tier 4	35.4%	39.6%	38.0%	22.9%	16.7%
Humanity's Last Exam (with tools)	52.2%	57.2%	58.7%	54.7%	51.4%
MRCR 512K–1M	74.0%	—	—	32.2%	—

読み方の注意

Humanity's Last Exam では GPT-5.4 Pro が GPT-5.5 Pro を上回る。「Pro なら必ず最新が上」と思い込まないこと。MRCR の改善も「検索的参照が得意になった」と読むに留め、全文を細部まで握っている保証ではない。

1.3 公式が挙げる科学研究の具体例

Derya Unutmaz（免疫学）: 62 サンプル・約 28,000 遺伝子の発現データを GPT-5.5 Pro が解析し、質問・洞察付きレポートを返した。チームなら数か月の作業量だったと本人コメント。
Bartosz Naskręcki: GPT-5.5 (Codex) が単一プロンプトから代数幾何アプリを 11 分で構築、特異点可視化と係数の再利用を追加。
非対角ラムジー数の新しい証明への寄与（Lean で検証）。「内部 GPT-5.5 バリアント」と注記あり、本番版と完全に同一の挙動とは限らない。
早期テスターは「論文の繰り返しレビュー、技術的議論チェック、解析提案、コード・ノート・PDF ベースの研究パートナー」として運用。

1.4 安全性メモ

GPT-5.5 は Preparedness Framework で bio/chem とサイバーで High（サイバーは Critical 未満）。Pro リリースに合わせて safeguards 強化。INTERP 学術解説は通っても、運用詳細を出させようとすると拒否される前提で設計する方が安全。

1.5 Deep Research（公式ページ）

FACT 出典: https://openai.com/ja-JP/index/introducing-deep-research/（2025-02-02 公開、2026-02-10／2026-04-24 更新、2026-05-24 時点参照）

複数ステップのインターネット調査エージェント。人手で数時間のリサーチを数十分で完了させる設計。
数百ソースを横断検索・分析・統合し、引用と思考サマリ付きの「アナリスト級レポート」を出力。テキスト・画像・PDF を解釈し、途中で方針調整。
2026-02-10: MCP／アプリ接続、信頼済みサイト制限、進捗追跡、追加プロンプト割り込み、ビジュアル改善。
2026-04-24: Plus/Team/Enterprise/Edu 25 回/月、Pro 250 回/月、無料 5 回。上限超過後は o4-mini 軽量版にフォールバック。
金融、サイエンス、ポリシー、エンジニアリング向け。深さ・詳細・分野固有性・引用が必要なクエリで使用。完了は通常 5〜30 分。

実務上のキー

Deep Research は 引用と網羅性のための装置であって、推論の鋭さを保証しない。引用元の信頼性評価、矛盾の解消、議論の含意は別の頭脳（GPT-5.5 Pro や人間）で詰める必要がある。

2. X／コミュニティの声（2026-03-25〜2026-05-24）

X 以下は x_search 経由で観測した範囲のサマリ。網羅性は保証しない。低情報量のハイプは除外し、具体的な使い分け・批判・失敗報告に絞る。

2.1 OpenAI 公式アカウント（一次情報）

ローンチスレッド（2026-04-23/24 周辺）、API 提供開始（2026-04-24）、GPT-5.5 Instant のデフォルトロールアウト（2026-05-05）。
Instant 側の訴求: 医療・法律・金融の事実性、日常タスク、画像解析、STEM、ウェブ検索の判断、簡潔で温かいトーン、パーソナライゼーション／メモリ改善。
関連 URL: link1, link2, link3

INTERP Instant 系は「日常チャット底上げ」、Pro 系は「重い案件用の別商品」。リサーチ用途で Instant を多く呼んでも Pro の代わりにはならない、と前提を置く。

2.2 GPT-5.5 Pro と Deep Research の使い分け

「Pro は書き物・数学・コーディング・複雑推論・反復作業向け、Deep Research は多数ソースから検証済み・引用付きレポートを作る向け、後者は遅いがファクトチェックが効く」という整理が複数アカウントから提示。
- https://x.com/ClubAiworld/status/2057854759500214725
- https://x.com/astropol0/status/2058110055942406338
公式の機能位置付けとほぼ一致。本稿でも採用。

2.3 研究パートナー的な使い方

論文の繰り返しレビュー、技術的議論のチェック、解析提案、コード／ノート／PDF ベースのワークフロー、という公式と同趣旨の利用報告。
- https://x.com/ryanberckmans/status/2058301868141371777
- https://x.com/emollick/status/2058331615525232988
「間違いコストが高いとき Pro」「持続的推論、精度クリティカル、エージェント的ワークフロー、難しい技術／分析的問題で Pro」「ルーチンは速く安いモデルで」というルールが繰り返し提示されている。

2.4 マルチモデル併用パターン

Pro + Claude Opus/Sonnet + Gemini を並列に走らせて統合する運用が一定支持。Pro は重い推論・バックエンド・ロジック、他モデルは長文脈・クリエイティブ・フロントエンドで分担。INTERP 本稿は Pro 中心なので深追いしないが、「並列リサーチ統合」ワークフロー（4.5）で一部援用。

2.5 批判・制約（X 観測）

API 価格が高い。$30/$180 per 1M はトークン数が増える長文・反復用途で効く。 https://x.com/bridgemindai/status/2047413750844788741
残存ハルシネーション。固有名詞・数値・最新イベントは引用元無しで出させない。
ヘッジが強い／自律オートパイロットではない。プロセス指定・セルフチェック・検証設計・サブエージェント化が必要。 link, link
長コンテキスト・創造／フロントエンドでは Claude 系が優位という主張も観測。 link
思考バジェットの動的制限、ベンチマーク→現場のリニア対応の不在、分布外脆弱性、検証困難ドメインでの誤り。

3. GPT-5.5 Pro をリサーチで使う／使わないユースケース

INTERP ここからは公式と X 観測を踏まえた解釈。

3.1 本命ユースケース

Deep Research の後段としての統合・矛盾検出・含意導出。「事実集積を Deep Research、推論を Pro」という機能差を最大限活かす。第 1 候補。
論文・技術文書・コード・PDF への敵対的レビュー。外部ウェブを引かない案件で Pro 単独が刺さる。Deep Research を呼ぶと論点がぼやけることがある。
リサーチアジェンダ／実験設計／methods 批評と再設計。推論の質が成果物の質を決める領域。
インタビュー設計／質問生成／プローブ作成。言い回しの細やかさと文脈把握が効く領域。
情報源信頼性監査。Deep Research が引いた URL の出版主体・利益相反・一次/二次/三次・撤回履歴をチェックリストで構造化。
意思決定メモ化。選択肢・基準・トレードオフ・推奨・反対意見の固定フォーマット。

3.2 避けるべきユースケース

雑要約、ブレスト、低リスク会話、軽い翻訳・校正、SNS 投稿、ToDo 整理 → Instant か安価モデル。
「引用が欲しいけど Deep Research は呼ばない」案件 → Pro 単独で出させると引用偽装・取り違えが残る。
検証バジェットが取れない案件 → 誤差が救えない。
ルーチン実行（CSV 整形、テンプレ書き換え） → オーバースペック。

3.3 ユースケース選定の簡易意思決定ツリー

外部ソースから新しい事実を取りに行く必要があるか？ → Yes: Deep Research。
手元の材料への推論／構造化／批判が成果物本体か？ → Yes: GPT-5.5 Pro。
誤差コストが Pro 利用差より明確に大きいか？ → Yes: Pro。No: 一段安いモデル。
成果物が人間または別システムで検証可能か？ → No: Pro でも救えない。要件定義を見直す。

4. 具体的なプロンプト／ワークフロー

すべて「Deep Research か Pro か」を最初に決めてから流す前提。

4.1 ソースファースト・ブリーフィング（Deep Research 起点）

Step 1: Deep Research に渡すプロンプト

あなたは <領域名> のリサーチアナリストです。以下の論点について、
2024-01 以降の一次情報を中心に、複数の独立ソースで裏取りしてください。

論点:
1. <論点 1>
2. <論点 2>
3. <論点 3>

出力フォーマット:
- 各論点ごとに、合意されている事実 / 議論中の点 / 明確に反対意見がある点を区別
- それぞれに最低 2 つの引用を付与
- 反証や限界も明示
- 信頼度（A/B/C）と理由を脚注
- 最後に open question リスト

Step 2: GPT-5.5 Pro に渡すプロンプト

以下は Deep Research が生成したレポートです。あなたは批判的なエディタとして、
次の作業を行ってください。出典の本文を直接参照していないので、引用が主張を
本当に支えているかを文面から推定し、不確実な箇所には「未検証」マークを付ける。

1. 主張と引用の対応表（主張 / 引用元 / 主張を支える度合い 0-3）
2. 引用同士の矛盾・温度差を列挙
3. 抜けている代替仮説／反対意見の候補を 3 つ以上
4. 次に Deep Research に投げ直すべきフォローアップ質問を 5 つ
5. 私が意思決定するうえで真に重要な事実を 5 件、優先度順に

注意

Pro に「外部ソースを引かせない」。Pro が新しい URL を出してきたら基本的に疑い、再度 Deep Research に投げ直して担保する。

4.2 敵対的レビュー

あなたは厳しい査読者です。私の提案を受け入れる前提を捨て、以下の観点で
批判的レビューを行ってください。妥協点や前向きな評価は最後にまとめてください。

材料:
<本文を貼り付け>

レビュー観点:
- 主張と証拠のミスマッチ
- 隠れた前提
- 代替仮説 / 競合手法
- 想定読者にとっての論理的飛躍
- 反例・コーナーケース
- 統計的・実験的設計の弱点
- 影響範囲を狭めるべき箇所

出力:
1. 直して欲しい順に欠陥リスト（重大度 H/M/L）
2. それぞれの修正案（最低 2 案、トレードオフ付き）
3. 私が現状で誇張している主張の言い換え案
4. 最後に、評価できる点を 3 つだけ

INTERP Pro はヘッジが強いので、「妥協点・前向き評価は最後」と明示しないと褒めから入り批判が薄まる。

4.3 ディシジョンメモ化

以下を入力に、社内意思決定メモを 1 枚で作ってください。
推測は推測と明示し、根拠リンクが取れない箇所は「要追加調査」とする。

入力:
- Deep Research レポート: <貼り付け>
- 敵対的レビュー: <貼り付け>

出力フォーマット:
1. TL;DR (3 行)
2. 推奨アクションと信頼度（A/B/C）
3. 選択肢比較（最低 3 案、評価軸を 4 つ以上、表形式）
4. 主要前提と、もしそれが崩れたら結論が変わる感度分析
5. 次に潰すべき不確実性 5 件と、それぞれの検証コスト
6. 反対意見セクション（自分が間違っている可能性の最強の論拠）

4.4 ソース信頼性監査

以下は Deep Research が引いた URL リストです。各 URL について、次の観点で
構造化評価を行ってください。あなたは新しい URL を導入してはいけません。

評価観点:
- 出版主体（学術/政府/業界/メディア/個人）
- 一次/二次/三次
- 著者の専門性と利益相反の有無（推定で可。根拠も書く）
- 引用カウントや再現性の手がかり（推定）
- 撤回・訂正歴の可能性（推定）
- このレポート文脈での使用適性 0-3
- 1 行コメント

4.5 並列リサーチ統合

以下は同じ問いに対する 3 種類のレポートです。あなたは統合エディタとして、
合意点・対立点・盲点を抽出し、最終レポートに統合してください。

入力:
- Report A (GPT-5.5 Pro):
- Report B (Deep Research):
- Report C (別モデル):

タスク:
1. 共通する主張（強い合意）
2. 1 つだけが言及しているユニークな主張（要追加検証）
3. 直接矛盾している箇所
4. どのレポートも触れていないが、本来踏むべき論点
5. 最終的な統合レポート（章立てを再設計してよい）
6. 引用の取り扱い: 元レポートの引用を残し、出所を明記

INTERP matching の偏り（同事実の別表現）で混乱しがち。「同義表現は同義として扱え」と一言入れるとブレが減る。

4.6 コンフィデンス・レジャー

私が現在持っている命題と確信度をリストアップします。あなたは次の作業を
行ってください。

入力:
- 命題リスト: <命題, 現在の確信度 0-1, 根拠サマリ>

タスク:
1. 各命題の確信度の妥当性をレビュー（過信/過小）
2. 確信度を更新するために必要な証拠の種類
3. 同じ証拠で同時に動く命題群（独立性チェック）
4. 一番安く確信度を動かせる「次の調査」を 3 つ

「何を調べれば一番動くか」を可視化できるので、Deep Research 呼び出しの優先順位付けに使える。

5. 制約と批判

5.1 構造的に残るリスク

引用偽装・取り違え: Pro 単独で外部引用は出させない。Deep Research かこちらが渡した一次資料からのみ。
ヘッジの過剰: 「最初に断定的結論、ヘッジは最後にまとめて」と明示。
長コンテキストの嘘: MRCR の改善があっても 800K トークン中の細部把握は保証しない。重要節は冒頭か末尾に置く。
思考バジェットの揺れ: 評価・レビューはテンプレ＋固定指示で振れ幅を抑える。
コスト: $30/$180 per 1M は重い。レポート単位で「材料パック」化して一度に渡す方が経済的。

5.2 「Pro でも救えない」案件の見分け方

検証できないドメイン（マイナー言語、業界ローカル動向、社内固有データのうちネットに無いもの）
対象が動くスピードが速い領域（昨日の発表、進行中インシデント） → Deep Research 優先、Pro は整理係
法的責任が問われる領域（法律・医療・金融） → Pro は補助、最終判断は人間

5.3 ベンチマーク数字の読み方の注意

BrowseComp 90.1% や FrontierMath Tier 4 39.6% は強いが、現場の面倒な案件と非リニア。
Humanity's Last Exam では Pro が GPT-5.4 Pro を下回る項目あり。世代差はタスクごとに非単調。
Unutmaz 事例のような派手な成功は、本人がプロンプト・前処理・解釈に投資した結果と読むのが妥当。ゼロショット再現は期待しない。

6. 筆者向けの結論

固定ルール: ① 外部事実が要るなら Deep Research を先、② 推論／統合／批判が成果物本体なら Pro、③ ルーチンは Instant か安価モデル、④ 引用は Pro 単独に作らせない、⑤ 出力は必ず固定フォーマットで取る。
運用テンプレ: 4 章のプロンプトをスニペット化。Deep Research → Pro 統合 → 敵対的レビュー → ディシジョンメモの 4 段スタックを既定パイプラインに。
コスト管理: 1 案件あたりの Pro 呼び出し回数を最初に決める（標準 3 回、重要案件 6 回まで）。超える場合は材料／プロンプト設計を見直す。
品質管理: 「主張 / 根拠 / 私が検証した方法 / 残る不確実性」を必ず記録。Pro の信頼度を自分の中で再校正するデータにする。

姿勢

GPT-5.5 Pro は「賢い友人」ではなく 高いがよく訓練されたコンサルタント。雑に呼ばず、案件を選び、検証コストとセットで運用する。

付録 A. 出典と注釈

公式（一次情報）

OpenAI「Introducing GPT-5.5」https://openai.com/ja-JP/index/introducing-gpt-5-5/
OpenAI「Introducing Deep Research」https://openai.com/ja-JP/index/introducing-deep-research/

X / コミュニティ（観測範囲限定。網羅性なし）

OpenAI 公式アカウント関連: 2047376561205325845, 2047743592278745425, 2051709028250915275
使い分け整理: ClubAiworld, astropol0
研究パートナー利用: ryanberckmans, emollick
批判・制約: FayezHassoun, bridgemindai, vennictus, sdmat123

注意

X 由来のサマリは x_search の検索範囲（2026-03-25〜2026-05-24、4 クエリ）で観測できた範囲に限られる。網羅性は保証しない。公式数値・Unutmaz・Naskręcki 事例・ベンチマークは公式記載に基づき、独自再現検証は行っていない。「結論ファースト」「ユースケース選定」「プロンプト集」「制約解釈」は公式と X 観測を踏まえた筆者解釈。

付録 B. クイックリファレンス

状況	第一選択	役割
領域の現状把握	Deep Research	引用付きで広く取る
Deep Research の検証・統合	GPT-5.5 Pro	矛盾検出、含意導出
論文 / 提案の敵対的レビュー	GPT-5.5 Pro	弱点・反論
実験設計の批評	GPT-5.5 Pro	代替仮説、交絡
引用付きレポート出力	Deep Research	仕上げ前
意思決定メモ化	GPT-5.5 Pro	構造化、感度分析
雑要約・翻訳・校正	GPT-5.5 Instant 等	コスト最適化
最新動向（昨日今日）	Deep Research → Pro 統合	知識カットオフ回避

避ける状況	理由
Pro 単独で引用を作らせる	引用偽装・取り違えリスク
検証できないドメインで Pro 任せ	誤差が救えない
「会話 default」を Pro にする	コスト効率が悪い
ベンチマーク数字をそのまま現場性能と読む	非単調・分布外で脆い