Gemini Deep Research とは — Interactions API と deep-research-pro-preview(Google 公式整理)
📝 記事について:
本記事は、50近辺のくたびれたおっさん(貧乏)の筆者が、サイトやコードを作っていく際に気になったものをまとめたものです。
利用するかもしれない製品・サービスについて、公開情報を調べています。
内容の正確性については、必ず公式情報やデータソースをご確認ください。
Gemini Deep Researchは、公式に「自律的に多段の調査を行い、引用付きの包括レポートにまとめる」エージェント型リサーチャーとして説明されています。基盤は Gemini 3.1 Pro、公開ウェブや(設定次第で)自社データを横断します。
呼び出しは Interactions API のみ(generate_content では利用不可)。タスクは数分規模になり得るため background=true で非同期実行し、ID でポーリングまたはストリーム取得するのが基本です。
以下は Deep Research ガイド と モデルページ の表現に沿った整理です。図表は Mermaid です。
Core Insights
① Interactions API 専用(チャット API とは別経路)
② バックグラウンド必須で長時間ループを回す
③ ストリーム時は interaction_id と last_event_id で再接続
-
1 API
プレビューかつ Interactions のみ
公式 WARNING どおり Deep Research エージェントはInteractions API 専用で、プレビューです。エージェント名は
deep-research-pro-preview-12-2025。 -
2 実行
同期タイムアウトを避ける
計画・検索・読解・執筆のサイクルが長いため、
background=Trueが必須。即時返る Interaction のidでgetを繰り返すか、SSE ストリームで進捗を受け取ります。 -
3 耐障害
ストリーム切断に備える
interaction.startで interaction_id、各チャンクの event_id を保持し、get(..., stream=True, last_event_id=...)で再開するパターンが公式に示されています。
公式上の位置づけ
Google のモデル説明では、本エージェントは自律的な多段調査で複雑な情報を引用付きレポートに統合し、長時間タスクと正確性重視の分析向けに最適化されているとされています。基盤は Gemini 3.1 Pro。英文のモデル紹介では、多数の公開ウェブに加え Gmail や Drive などのワークスペースデータに言及がありますが、これは製品・契約・設定・リージョン等により利用可否が変わり得る例示です。実装前に公式の最新ドキュメントとコンソール上の案内で確認してください。
Deep Research ガイドの WARNING では、プレビューであること、Interactions API 経由のみで generate_content からは利用できないことが明示されています。
モデル deep-research-pro-preview-12-2025(公式表の整理・Mermaid)
次の図は モデルページの表 をノード化したものです。トークン数・種別は公式の記載どおりです。
標準 Gemini と Deep Research の違い(公式比較表の Mermaid)
Interaction の状態(公式の説明)
background=True で即時に部分オブジェクトが返り、id で get して状態を追います。in_progress から completed または failed へ遷移するとされています。
ポーリングの流れ(概念図)
ストリーミングと再接続(公式パターン)
stream=True と background=True を併用できます。中間の推論ステップと進捗をストリームで受け取るには agent_config で thinking summaries を "auto" にする必要がある、と公式 NOTE にあります(未設定だと最終結果中心になり得る)。ストリーム上のデルタ種別は例では thought_summary とされています。
切断時は interaction.start で得た interaction_id と、最後に処理した last_event_id を保持し、interactions.get(..., stream=True, last_event_id=...) で再開する例が掲載されています。REST では ?alt=sse の SSE が例示されています。
REST エンドポイント(抜粋)
POST https://generativelanguage.googleapis.com/v1beta/interactions— タスク開始(必要に応じ?alt=sse)GET .../v1beta/interactions/INTERACTION_ID— ポーリングまたはストリーム再開(クエリでstream・last_event_id)
SDK 例は 公式ガイド の Python / JavaScript を参照してください(本記事ではコード全文は省略します)。
ツールと自社データ
既定では公開インターネット向けに google_search と url_context が使える旨が記載されています(デフォルト指定不要とされる説明)。
File Search を tools に足すと自社ストアを検索対象にできますが、ガイドでは Experimental と警告付きです。
マルチモーダル・体裁・フォローアップ
- マルチモーダル:画像・PDF・音声・動画を入力にし、その文脈でウェブ調査へ繋げられる、とあります。コスト増とコンテキスト圧迫に注意、とベストプラクティスに記載があります。
- 体裁指定:入力プロンプトに章立て・表形式・トーン(技術向け/経営向け等)を明示して誘導できます。
- フォローアップ:完了後のやり取りは
previous_interaction_idに完了 ID を渡し、モデルにgemini-3.1-pro-previewを指定する例が掲載されています。
料金の考え方と公式の概算レンジ
エージェントは 1 リクエストで計画・検索・読解・推論のループが走るため、通常のチャットより課金単位が積み上がります。料金は エージェント向け pay-as-you-go と、裏側の Gemini 3.1 Pro および利用ツールに基づく、とされています。
公式の「推定コスト」例(いずれもプレビュー料率に基づく推定で変更され得る):
安全上の注意(公式の列挙を要約)
- アップロード文書に悪意の隠しテキストがあり、エージェント出力を操作される(プロンプトインジェクション)リスク。
- 公開ウェブ検索を伴うため、悪意あるページを踏むリスク。応答の
citationsを確認してソースを検証することが推奨されています。 - 機密データを要約させつつウェブ閲覧も許す場合の情報持ち出しに注意、との注意書きがあります。
制限とベータ情報(公式リストの整理)
- Interactions API は public beta。スキーマや機能は変わり得る。
- カスタムの Function Calling やリモート MCP サーバを Deep Research エージェントに載せられない(現時点)。
- 人間による計画承認や構造化出力は未サポート(現時点)。
- 最大調査時間 60 分。多くのタスクは 20 分以内に完了し得る、との記載。
background=Trueにはstore=Trueが必要、と記載。- Google 検索はデフォルト有効だが、グラウンディング結果には 利用上の制限が適用される、との案内。
仕様・料金・プレビュー範囲は更新されやすいため、実装前に必ず上記公式ページの最新版を確認してください。モデルページフッターなどにページ自体の最終更新日(例として 2026-03-09 UTC の表記)が出る場合があります。
データソース・参考リンク
本記事は以下の情報源を参考にしています。内容の正確性については、必ず元のデータソースをご確認ください。