深度研究(Deep Research) 已成为现代大语言模型(LLM)平台的标配功能。
ChatGPT、Gemini 和 Claude 都支持长时间运行的任务,并能从公共网络的各个角落收集信息。
一个典型的深度研究请求可能涉及数十次搜索、数轮筛选,以及对最终报告的精心组装。例如,像“列出 2025 年致力于 AI 智能体的 100 家公司”这样的查询,并不依赖于单一的搜索结果。它会激活一个协调系统,在 15 到 30 分钟内探索广泛的信息领域,然后呈现最终答案。
本文将解释这些系统在后台是如何工作的。
我们将深入探讨支持深度研究的架构、不同 LLM 的实现方式、智能体之间如何协调,以及最终报告在交付给用户之前是如何综合与验证的。
高层架构
深度研究系统由相互协作的 AI 智能体(AI Agents) 构建而成。在这种语境下,AI 智能体是一个由 LLM 驱动的服务,它可以接受目标,设计工作流以实现这些目标,并通过网络搜索或代码执行等工具与其环境进行交互。
请看下面的图表,了解 AI 智能体的概念:
在高层面上,架构始于用户请求。用户的查询被发送到一个多智能体研究系统中。在该系统内部,通常有一个 协调者(Orchestrator) 或 主智能体(Lead Agent) 负责整体研究策略。
协调者接收查询,解读用户意图,然后制定一个回答问题的计划。该计划被拆分成更小的部分,并委派给多个 子智能体(Sub-agents)。最常见的子智能体是“网络搜索”智能体。每一个子智能体都被指示去搜索网络,以寻找整体主题的特定部分或特定的子任务,例如问题的某个地区、某个时间段或某个维度。
一旦网络智能体完成工作,它们会返回两样东西:
- 提取的内容: 通常以文本片段、摘要或关键事实的形式呈现。
- 引用(Citations): 记录内容确切来源的信息,如 URL 和页面标题。
随后,这些结果进入所谓的“综合者(Synthesizer)”流程。这一阶段通常包含两个智能体:一个 综合智能体(Synthesizer Agent) 和一个 引用智能体(Citations Agent)。在某些系统中,协调者本身也充当综合者,因此不需要单独的智能体。
来源:Anthropic Engineering Blog
综合智能体获取网络智能体返回的所有内容,并将其转换为最终的研究报告。它将信息组织成章节,解决重叠内容,并构建连贯的叙述。然后,引用智能体通读综合后的报告,确保每个陈述都有正确来源的支持。它会在文本的正确位置插入引用,从而使最终报告有详实的底层材料作为支撑。
在这个综合与引用过程完成后,综合者(或协调者)将最终的、包含完整引用的研究报告返回给用户。
Anthropic 发布了一张其“高级研究(Advanced Research)”模式的高层图表,展示了这样一个多智能体研究系统的运作过程。它展示了主智能体、各种子智能体,以及它们之间通过规划、研究和综合流动的数据。
研究智能体的当前格局
尽管深度研究背后的广泛理念在各个平台间是共通的,但每个主要提供商都实现了自己的变体。
OpenAI Deep Research
OpenAI 的深度研究智能体是围绕一个使用强化学习的推理模型构建的。
该模型经过训练,可以规划多步骤的研究任务,决定何时搜索、何时阅读,以及如何将信息组合成最终答案。强化学习的使用帮助智能体通过奖励良好的25工具调用序列和研究决策,从而随着时间的推移不断改进。2627282930
Gemin Deep Research
Google DeepMind 的 Gemini 深度研究系统建立在 Gemini 模型之上,该模型是多模态的。这意味着同一个系统可以对文本、图像和其他类型的输入进行推理。
对于深度研究,这使得 Gemini 能够将来自文档、网页和其他媒体的信息整合到一个综合的回复中。Gemini 的智能体利用其42规划能力来决定寻找什么、如何构建研究结构,以及如何将所有内容汇集到一份报告中。
Claude Advanced Research
Anthropic 的高级研究系统使用定义清晰的多智能体架构。有一个主智能体负责协调多个并行运行的子智能体。每个子智能体被要求探索问题空间的一个特定部分。
对于复杂的主题,这种设计允许 Claude 将主题划分为多个角度并同时进行探索,然后将结果带回协调者进行综合。
Perplexity Deep Research
Perplexity 的深度研究智能体使用迭代式的信息检索循环。
它不是进行单次搜索和总结,而是根据沿途发现的新见解反复调整其检索。
Perplexity 还使用一种混合架构,可以自主选择最适合任务不同部分的底层模型。例如,一个模型可能更擅长总结,而另一个更擅长搜索解读,系统可以据此分配工作。
Grok DeepSearch
Grok DeepSearch 拥有一个分段级(segment-level)的模块处理管道
内容被分段处理,每个分段都会经过一个可信度评估阶段。此外,Grok 使用稀疏注意力机制,使其能够对多段文本执行并发推理。
该系统还可以动态分配资源,根据需要在安全的沙盒环境中切换检94索和分析模式。
Copilot Researcher and Analyst
Microsoft 推出了两个相关的推理智能体:
-
研究员(Researcher): 专注于复杂的多步骤研究任务,将网络信息与用户的工作数据相结合。它使用复杂的编排和搜索功能来处理多阶段问题。
-
分析师(Analyst): 是一个高级数据分析智能体,可以解释并将原始数据转化为有用的见解。它使用思维链推理方法来分解分析问题,应用适当的操作并展示结果。
研究员和分析师都旨在安全地在企业数据和公共网络上工作。
Qwen Deep Research
阿里巴巴的通义千问(Qwen)深度研究是一个支持动态研究蓝图的高级智能体。
它可以生成初始研究计划,然后交互式地完善该计划。Qwen 的架构支持并发任务编排,这意味着信息的检索、验证和综合可以并行发生。这使得系统能够高效地检索数据、验证数据并将其整合到最终输出中。
用户查询与初步规划
整个深度研究工作流始于单一的用户查询。
用户可以用许多不同的方式表达请求。有些用户会写非常模糊的提示,如“告诉我关于 AI 智能体的一切”,而其他用户则提供高度详细、重点突出的指令。系统必须能够处理这种可变性,并将查询转化为精确的、机器可执行的研究计划。
这个初始阶段至关重要。它将用户通常宽泛或模棱两可的请求转换为具有具体步骤的清晰策略。最终报告的质量与该计划的质量直接相关。如果计划不完整或误解了用户的意图,由此产生的研究将遗漏关键信息或方向错误。
见下图:
不同的系统以不同的方式处理这个规划阶段。
交互式澄清(OpenAI)
一些架构,如 OpenAI 的深度研究,使用交互式澄清方法。在这里,智能体不会立即开始漫长的研究过程。相反,它可能会问用户后续问题。这些问题旨在细化研究范围,澄清目标,并确认用户真正关心的信息是什么。
例如,如果用户要求比较技术,智能体可能会问用户是否只需要最近的发展,是否应包括特定地区,或者是否适用某些限制。这种对话式的来回持续进行,直到智能体对用户的需求有了清晰的理解,此时它才会致力于完整的研究过程。
自主计划提案(Gemini)
其他系统,如 Google 的 Gemini,采取了不同的路径。Gemini 不会默认向用户提出后续问题,而是根据其对初始查询的解读,自主生成一个全面的多步骤计划。该计划概述了系统打算探索的子任务和研究角度。
然后,Gemini 将此提议的计划呈现给用户以供审查和批准。用户可以阅读计划,进行编辑,添加约束条件或移除不需要的子任务。一旦用户满意并批准了计划,系统就会开始研究过程。
子智能体委派与并行执行
一旦计划准备就绪,系统就从战略转向执行。主智能体不会单独执行所有步骤,而是将工作委派给多个“为它工作”的子智能体。
Anthropic 的下图展示了主智能体如何将工作分配给并行运行的专业智能体,然后将结果收集回中央综合流程中。
![[Gemini_Generated_Image_4lyc0t4lyc0t4lyc.png]]
任务委派与子智能体专业化
主智能体使用结构化的 API 调用来委派每个子任务。从技术上讲,这意味着协调者调用另一个服务(子智能体),并附带包含子智能体所需一切的有效载荷:
-
精确的提示(Prompt): 解释其具体研究目标,例如“调查 NVIDIA 在 2024 年第四季度的财务表现”。
-
约束条件: 如时间范围、数据来源,或阅读页数的限制。
-
访问权限和工具配置: 以便子智能体知道它可以使用哪些工具。
子智能体通常是专业化的,而不是完全通用的。虽然有些系统可能拥有通用的“研究智能体”,但更常见的是看到一组针对特定功能进行了调优的智能体池。例子包括:
-
网络搜索智能体: 专门用于构建有效的搜索查询、与搜索引擎交互以及解读结果摘要。
-
数据分析智能体: 可以访问代码解释器,能够执行统计分析、处理 CSV 文件或生成简单的可视化图表。
通过使用专业化的智能体,系统可以将最佳的工具和方法应用于计划的每个部分,从而提高整体研究的准确性和效率。
并行执行与工具使用
这种架构的一个主要优点是并行执行。由于子代理是独立的服务,因此许多子代理可以同时运行。一个子代理可能正在研究市场趋势,另一个子代理可能正在收集历史财务数据,第三个子代理可能正在研究竞争对手的战略,所有这些都可以并行执行。
不过,并非所有任务都同时运行。有些任务必须等待其他任务完成。协调器会跟踪依赖关系,并在其输入准备就绪时触发子代理。
为了与外界互动,子代理人使用工具。代理本身不能直接访问网络或文件。相反,它们会发出工具调用,由系统代为执行。
常用工具包括:
- Search tool: Agent调用
web_search(query="Microsoft 365 Copilot 的分析师评级")。系统会将此查询发送到外部搜索引擎 API(如 Google 或 Bing),并返回 URL 和片段列表。 - Browser tool: 在收到搜索结果后,agent可以调用
browse(url="...")来获取网页的全部内容。浏览器工具会返回网页文本,然后由代理进行处理。 - Code interpreter tool: 对于数值或数据量大的任务,代理可以编写 Python 代码,并在安全的沙盒环境中执行。代码解释器可以读取 CSV 数据、计算平均值或运行基本分析。然后,代理读取输出,并将结果纳入报告。
信息检索与上下文感知
当子智能体从工具接收数据时,它必须不断评估该信息是否与其目标相关。这涉及:
-
检查来源是否权威或可信。
-
尽可能在多个页面之间交叉引用事实。
-
注意初始搜索结果何时较弱,并调整查询。
例如,如果搜索返回的大多是不相关的营销页面,智能体可能会使用更具体的术语或过滤器来细化查询。它可能会添加像“PDF”、“季度报告”或特定年份这样的关键词来缩小结果范围。
当智能体找到有用的内容时,它会提取相关的片段,并将它们连同原始 URL 一起存储。这种内容与引用的配对至关重要,因为它确保了稍后在综合阶段使用的每一条信息都可以追溯到其来源。
每个子智能体都维护着自己的短期记忆或“上下文”,记录它目前所见的内容。这种记忆使其能够建立对子任务的连贯理解,并避免重复工作。当子智能体完成任务时,它会返回一个结构良好的信息包,其中包含发现结果及其引用。
整个检索阶段的输出还不是单个文档。相反,它是这些自包含信息包的集合,来自所有子智能体,每个都专注于研究问题的不同部分。
见下图:
综合与报告生成
一旦所有子智能体返回结果,系统就进入综合阶段。此时,系统拥有大量碎片化的见解,每一个都与研究计划的特定部分相关联。目标是将这些碎片转化为一份统一的报告。
见下图:
内容聚合与主题分析
协调者或综合智能体首先收集所有信息包。它执行高层分析以识别主题、重叠和逻辑联系。例如,关于市场采用的见解可以补充关于客户情绪的见解,两者都可以输入到报告的更广泛部分。
然后,综合者为最终文档构建叙述大纲。它决定最适合材料的结构,是按时间顺序、按主题,还是基于问题和解决方案。来自多个子智能体的冗余信息被合并成单一、清晰的陈述。
叙述生成与引用过程
大纲准备好后,智能体开始撰写报告。它整合提167取的事实,创建章节之间的过渡,并保持一致的语气。在撰写过程中,每个主张都与来源相关联。有168些系统将此步骤分配给专门的引用智能体,该智能体审查草稿并在正确的位置插入引用。
这一阶段很重要,因为它可以防止幻觉,并确保最终报告中的每个断言都可以追溯到经过验证的来源。
结果是一份经过润色的研究文档,辅以引用,并在需要时提供正式的参考书目。
结论
深度研究系统依赖于多智能体架构,这些架构协调规划、并行探索和结构化综合。
专门的子智能体检索信息、评估信息并返回详细的发现。然后,协调者或综合者将这些分布式知识转化为连贯且引用充分的报告。随着 LLM 在规划、推理和工具使用方面的进步,这些系统将继续变得更加能干、更加可靠和更加全面。
参考资料:





