Gemini Deep Research エージェント(Interactions API)のサムネイル

Gemini Deep Research とは — Interactions API と deep-research-pro-preview(Google 公式整理)

| 16 min read

今日の日付(閲覧日)

2026年3月24日 プレビュー機能の整理記事

公式リンク(Google AI for Developers)

Deep Research ガイド モデル仕様 Interactions API 料金(エージェント)

📝 記事について:
本記事は、50近辺のくたびれたおっさん(貧乏)の筆者が、サイトやコードを作っていく際に気になったものをまとめたものです。
利用するかもしれない製品・サービスについて、公開情報を調べています。
内容の正確性については、必ず公式情報やデータソースをご確認ください。

Gemini Deep Researchは、公式に「自律的に多段の調査を行い、引用付きの包括レポートにまとめる」エージェント型リサーチャーとして説明されています。基盤は Gemini 3.1 Pro、公開ウェブや(設定次第で)自社データを横断します。

呼び出しは Interactions API のみgenerate_content では利用不可)。タスクは数分規模になり得るため background=true で非同期実行し、ID でポーリングまたはストリーム取得するのが基本です。

以下は Deep Research ガイドモデルページ の表現に沿った整理です。図表は Mermaid です。

Core Insights

Interactions API 専用(チャット API とは別経路)
バックグラウンド必須で長時間ループを回す
③ ストリーム時は interaction_id と last_event_id で再接続

  • 1 API

    プレビューかつ Interactions のみ

    公式 WARNING どおり Deep Research エージェントはInteractions API 専用で、プレビューです。エージェント名は deep-research-pro-preview-12-2025

  • 2 実行

    同期タイムアウトを避ける

    計画・検索・読解・執筆のサイクルが長いため、background=True が必須。即時返る Interaction の idget を繰り返すか、SSE ストリームで進捗を受け取ります。

  • 3 耐障害

    ストリーム切断に備える

    interaction.startinteraction_id、各チャンクの event_id を保持し、get(..., stream=True, last_event_id=...) で再開するパターンが公式に示されています。

公式上の位置づけ

Google のモデル説明では、本エージェントは自律的な多段調査で複雑な情報を引用付きレポートに統合し、長時間タスク正確性重視の分析向けに最適化されているとされています。基盤は Gemini 3.1 Pro。英文のモデル紹介では、多数の公開ウェブに加え Gmail や Drive などのワークスペースデータに言及がありますが、これは製品・契約・設定・リージョン等により利用可否が変わり得る例示です。実装前に公式の最新ドキュメントとコンソール上の案内で確認してください。

Deep Research ガイドの WARNING では、プレビューであること、Interactions API 経由のみgenerate_content からは利用できないことが明示されています。

モデル deep-research-pro-preview-12-2025(公式表の整理・Mermaid)

次の図は モデルページの表 をノード化したものです。トークン数・種別は公式の記載どおりです。

flowchart TB subgraph spec [deep-research-pro-preview-12-2025] r1["Agent: Interactions API 上の deep-research-pro-preview-12-2025"] r2["入力: Text / Image / PDF / Audio / Video"] r3["出力: Text(引用付きレポート)"] r4["入力コンテキスト: 1,048,576 tokens"] r5["出力上限: 65,536 tokens"] r6["版: Preview / 更新: December 2025"] end

標準 Gemini と Deep Research の違い(公式比較表の Mermaid)

flowchart LR subgraph std [Standard_Gemini] s1["レイテンシ: 秒単位"] s2["処理: 生成して出力"] s3["向き: チャット・抽出・短い要約など"] end subgraph dr [Deep_Research_Agent] d1["レイテンシ: 分単位・非同期"] d2["処理: 計画・検索・読解・反復・出力"] d3["向き: 市場分析・DD・文献レビュー・競合整理など"] end

Interaction の状態(公式の説明)

background=True で即時に部分オブジェクトが返り、idget して状態を追います。in_progress から completed または failed へ遷移するとされています。

stateDiagram-v2 [*] --> running: create background running --> completed: success running --> failed: error completed --> [*] failed --> [*]

ポーリングの流れ(概念図)

sequenceDiagram participant Client participant API as InteractionsAPI Client->>API: POST create agent background API-->>Client: id status in_progress loop Polling Client->>API: GET interaction id API-->>Client: status outputs end

ストリーミングと再接続(公式パターン)

stream=Truebackground=True を併用できます。中間の推論ステップと進捗をストリームで受け取るには agent_configthinking summaries"auto" にする必要がある、と公式 NOTE にあります(未設定だと最終結果中心になり得る)。ストリーム上のデルタ種別は例では thought_summary とされています。

切断時は interaction.start で得た interaction_id と、最後に処理した last_event_id を保持し、interactions.get(..., stream=True, last_event_id=...) で再開する例が掲載されています。REST では ?alt=sse の SSE が例示されています。

flowchart TB startStream["create stream plus background"] capId["interaction.start で id 取得"] capEv["各 chunk の event_id を保存"] proc["content.delta: text / thought_summary"] drop["接続断"] resume["get id stream last_event_id"] done["interaction.complete"] startStream --> capId capId --> capEv capEv --> proc proc --> done proc --> drop drop --> resume resume --> proc

REST エンドポイント(抜粋)

  • POST https://generativelanguage.googleapis.com/v1beta/interactions — タスク開始(必要に応じ ?alt=sse
  • GET .../v1beta/interactions/INTERACTION_ID — ポーリングまたはストリーム再開(クエリで streamlast_event_id

SDK 例は 公式ガイド の Python / JavaScript を参照してください(本記事ではコード全文は省略します)。

ツールと自社データ

既定では公開インターネット向けに google_searchurl_context が使える旨が記載されています(デフォルト指定不要とされる説明)。

File Searchtools に足すと自社ストアを検索対象にできますが、ガイドでは Experimental と警告付きです。

マルチモーダル・体裁・フォローアップ

  • マルチモーダル:画像・PDF・音声・動画を入力にし、その文脈でウェブ調査へ繋げられる、とあります。コスト増とコンテキスト圧迫に注意、とベストプラクティスに記載があります。
  • 体裁指定:入力プロンプトに章立て・表形式・トーン(技術向け/経営向け等)を明示して誘導できます。
  • フォローアップ:完了後のやり取りは previous_interaction_id に完了 ID を渡し、モデルに gemini-3.1-pro-preview を指定する例が掲載されています。

料金の考え方と公式の概算レンジ

エージェントは 1 リクエストで計画・検索・読解・推論のループが走るため、通常のチャットより課金単位が積み上がります。料金は エージェント向け pay-as-you-go と、裏側の Gemini 3.1 Pro および利用ツールに基づく、とされています。

公式の「推定コスト」例(いずれもプレビュー料率に基づく推定で変更され得る):

flowchart TB subgraph tierA [standard_task_estimate] a1["検索クエリ目安: 約80回"] a2["入力トークン目安: 約250k キャッシュ比率は公式に5割から7割と記載"] a3["出力トークン目安: 約60k"] a4["合計レンジ目安: 約2 to 3 USドル毎タスク"] end subgraph tierB [complex_task_estimate] b1["検索クエリ目安: 最大約160回"] b2["入力トークン目安: 最大約900k キャッシュ比率は同上"] b3["出力トークン目安: 最大約80k"] b4["合計レンジ目安: 約3 to 5 USドル毎タスク"] end

安全上の注意(公式の列挙を要約)

  • アップロード文書に悪意の隠しテキストがあり、エージェント出力を操作される(プロンプトインジェクション)リスク。
  • 公開ウェブ検索を伴うため、悪意あるページを踏むリスク。応答の citations を確認してソースを検証することが推奨されています。
  • 機密データを要約させつつウェブ閲覧も許す場合の情報持ち出しに注意、との注意書きがあります。

制限とベータ情報(公式リストの整理)

  • Interactions API は public beta。スキーマや機能は変わり得る。
  • カスタムの Function Calling やリモート MCP サーバを Deep Research エージェントに載せられない(現時点)。
  • 人間による計画承認や構造化出力は未サポート(現時点)。
  • 最大調査時間 60 分。多くのタスクは 20 分以内に完了し得る、との記載。
  • background=True には store=True が必要、と記載。
  • Google 検索はデフォルト有効だが、グラウンディング結果には 利用上の制限が適用される、との案内。

仕様・料金・プレビュー範囲は更新されやすいため、実装前に必ず上記公式ページの最新版を確認してください。モデルページフッターなどにページ自体の最終更新日(例として 2026-03-09 UTC の表記)が出る場合があります。

データソース・参考リンク

本記事は以下の情報源を参考にしています。内容の正確性については、必ず元のデータソースをご確認ください。