智能的深度:多模型编排与 AI 原生决策
我的理解
这一课的核心论点是:没有任何单一 LLM 在所有任务上都最强,不同模型有各自的”AI 个性”(如 DeepSeek 善调研、Gemini 善分析)。架构解法是多智能体编排,让专业模型各扬其长。最具颠覆性的方法论是”实现比空想更便宜”——AI 架构师用评测集把架构争论转化为 10 分钟的实验,以指标驱动决策,并为 LLM 的非确定性预设优雅降级的回退机制。课中区分了两种”正确”范式:基于个性的编排(不分配人类角色,而是利用模型固有长短)与上下文窗口隔离(Executor 只向 Planner 回报干净摘要,防止噪声污染高层推理)。
相关链接
- Ch07-L02 架构师驾驶舱ContextDebugger — Context Debugger 是探索和验证多模型编排的实验工作台
- Ch07-L04 系统鲁棒性生产级工程 — 本课强调的”为失败而架构”与回退机制,是生产级鲁棒性的前置主题
- Ch02-L04 集成核心智能引擎 — 被编排升级的正是 Phase A 集成的单一核心引擎
- Ch02-L05 用Agentic工具扩展能力 — 多智能体编排是 Agentic 工具能力的进阶形态
原文
Lesson 41 of 46 智能的深度:多模型编排与 AI 原生决策 / The Depth of Intelligence: Multi-Model Orchestration & AI-Native Decisions 3.1 核心问题:AI 个性与构建者的直觉
我们的第一个进阶话题,要面对任何单一 LLM 的根本性局限:没有任何一个模型在所有任务上都是最强的。在你自己的使用过程中,你很可能已经开始对此有所体感。这就是”构建者的直觉”(Builder’s Instinct)。
你也许已经注意到,有些模型——比如 DeepSeek R1 或 Kimi K2——在大范围网络调研上格外细致;而另一些模型,比如 Gemini 2.5 Pro,则具备更深、更严谨的逻辑推理能力,非常适合做分析与综合。但它就是讨厌做任何搜索。我们把这种现象称为”AI 个性”(AI Personality)。
这种对不同模型”个性”的直觉式理解,是你能培养的最有价值的资产之一。它是一种身体性的知识,无法从文档中习得,只能在亲手构建、测试和调试真实系统的过程中被锻造出来。这正是我们”在构建中学习”理念的最终理由。这种直觉是一种内行知识,是少有线上教程会触及的、实实在在的优势。
3.2 解决方案:多智能体系统
一旦你接受了”AI 个性”的现实,一种自然而然的架构解决方案就会浮现:不再寻找一个无所不能的单一模型,而是开始设计一个多智能体系统(multi-agent system),让不同的专业化模型彼此协作,各自扬长避短。
这听起来似乎很复杂,但你很可能已经在实践它的简单版本。比如在 Cursor 这类编辑器中,你可能会下意识地切换到 Gemini 来写文档,而更愿意用 GPT-5 Codex 来写代码。
从产品架构的视角看,这意味着我们可以设计这样一个工作流:先用 DeepSeek 这类”研究员模型”进行初步的、大范围的信息收集,再把收集到的数据交给 Gemini 这类”分析师模型”做最终的深度综合。这就是一种强大且实用的多智能体系统形态。
3.3 AI 架构师的方法论:去实现,不要空想
这把我们引向一个重要的架构决策:从研究员模型到分析师模型的”交接”究竟该如何实现?我们可以设计这样一个系统:把分析师智能体作为研究员智能体可以选择调用的工具;也可以设计一个更刚性的工作流,由系统在研究阶段结束后强制完成交接。
在前 AI 时代,一位架构师可能会花上数小时甚至数天来争论这种选择。他们会撰写设计文档、权衡利弊、召开会议,只因为一旦实现选错代价高昂。在那个世界里,空想比实现便宜。
在 AI 时代,这一逻辑被反转了。实现,如今比空想更便宜。
这是一次深刻的思维方式转变。AI 架构师不会陷入分析瘫痪,而是会利用 AI 的速度,把架构层面的争论转化为一次经验性的实验。下面是”以指标驱动决策”(Metric-Driven Decision Making)的核心做法:
构建评测集:首先,定义一个由 5–10 个具有代表性的查询组成的小型测试集,这些查询同时需要研究和分析能力。
把构建工作交给 AI:命令你的 AI 伙伴,把两种交接策略分别实现为 /chat 接口的两个不同版本。这不再是一项耗时一周的任务,而是一次 10 分钟的委派。
度量与比较:在你的评测集上运行两个版本,度量它们的成功率、最终分析的质量以及延迟。
由数据得出的结论:数据可能会给出清晰的赢家。我们自己的内部实验表明,强制式交接显著更可靠,因为研究员智能体往往缺乏判断力,无法准确知道自己的工作何时真正完成。
专业级洞见——为失败而架构:即便采用了更优的方案,LLM 的非确定性也意味着永远存在一定的失败概率。生产级的系统会预先考虑到这一点。你需要为系统设计回退机制:当先进的多智能体工作流因任何原因失败时,系统应当优雅降级到更简单的单模型模式。这能保证你的应用具备韧性,始终返回一个即使不完美也仍然有用的答案。
这一实战练习把我们引向对”什么才是优秀的多智能体系统”的更深层理论理解。
3.4 多智能体系统的两种”正确”范式
必须避免最常见的陷阱:按照人类的社会角色来建模 AI 智能体(例如 PM Agent、工程师 Agent、QA Agent)。这是一个有缺陷的类比。人类之所以需要专业化分工,是因为我们的局限——一个人一辈子无法精通多个深度领域。LLM 没有这种局限。给它套上某个角色或人设,往往是一种限制性提示,会人为地收窄 AI 本应宽广的能力。
相反,我们刚刚构建的多智能体架构,正是一种有原则的、AI 原生的范式:基于个性的编排(Personality-Based Orchestration)。我们不分配角色,而是设计一个工作流,针对不同子任务,充分利用不同模型固有的、独特的长处和短处(即”个性”)。
第二种”正确”范式——我们不会动手构建,但作为架构师必须理解——是上下文窗口隔离(Context Window Separation)。它针对的是我们之前讨论过的”上下文工程”(Context Engineering)的核心痛点:“懒惰 AI”现象,即当智能体的上下文窗口被冗长或无关信息塞满时,其表现会随之下降。
设想这样一个工作流:其中包含两类智能体——一个负责设定策略的高层 Planner,以及若干执行实际工作的底层 Executor,例如调用 API 或抓取网页。Executor 的过程天然是”脏”的:它涉及操作的原始细节——具体调用了哪些 API、收到了完整而冗长的 JSON 响应,甚至可能还包含若干次失败尝试的试错过程。
如果把所有这些底层操作细节都回灌进 Planner 的上下文窗口,它们就会变成噪声。除了分散 Planner 的注意力之外,还会主动消耗其有限的认知资源、污染其上下文,使其在高层战略推理上变得更不有效。Planner 不在乎信息是怎么得到的,只在乎信息本身是什么。
上下文窗口隔离正是对此的架构解。它在不同类型的智能体之间,强制施加一套严谨且精心设计的通信协议。Executor 智能体在它们各自独立的上下文窗口中处理那些杂乱的细节。当工作完成时,它们不会把整个工作历史回报给上层,而是只向 Planner 提供一份干净、简洁的摘要——仅包含最终的、相关的结果。这样可以确保 Planner 的上下文保持纯净、聚焦于策略,避免性能退化。这是构建复杂多步智能体系统的重要设计模式,确保系统的不同部分不会被彼此的内部噪声所淹没。