再次点燃飞轮:运用”管理-创造”工作流
我的理解
这一课把”管理-创造”工作流应用到情境智能领域,强调你的角色是管理者而非编码者,主要挑战在于做出高质量产品决策。三步分别是:用指标驱动定义 OKR(构造小规模定制评估集,把”差不多就行”变成客观可执行标准)、撰写清晰任务说明书(指挥 AI 完成向量索引等复杂数据工程,把检索器转化为 Agent 可自主调用的研究工具)、进行绩效复盘(区分检索失败与生成失败,给出具体迭代反馈)。三者形成闭环,让系统可靠性随迭代提升。
相关链接
- Ch05-L02 架构师视角设计数据灵魂 — 本课在架构决策之后启动构建工作流
- Ch05-L04 起点数据到魔法 — 紧随其后的完整工作示例,演示这三步的落地
- Ch06-L03 飞轮最后一转 — 下一章末尾对同一工作流的最后一次内化
- Ch02-L06 手动调试Agent的思维 — 同样强调通过根因分析指导迭代的核心管理思维
原文
Lesson 31 of 46 再次点燃飞轮:运用”管理-创造”工作流 / Igniting the Flywheel, Again: Applying the Manage-and-Create Workflow
至此,你已经为自己的数字分身(Digital Twin)奠定了战略基础。你已经理解:在写下任何代码之前所做的决定——关于目的、策略与边界——才是真正塑造最终产品的关键。
这让我们回到本课程的核心方法论:能力飞轮(Capability Flywheel)。正如我们此前所确立的,这门课程已经显著提升了你的工程能力。你当前的主要挑战,也是最大的成长机会,在于做出高质量的产品决策。
接下来,我们将沿用你在上一模块中练习过的管理-创造(manage-and-create)工作流,并将其应用到一个全新的、更具复杂度的领域——情境化智能(contextual intelligence)。你的角色,依然不是编码者,而是一位管理者,负责指挥一位才华出众的 AI 下属。
第一步:评估先行 —— 用指标定义你的 OKR
为什么重要:在构建涉及知识与记忆的系统时,“差不多就行”是一个危险的标准。我们需要一种全面、可重复的方法来衡量成功。这正是”指标驱动”方法不可或缺的原因。在动手构建之前,你必须先定义可量化的评估标准,用以证明你的系统正在正确、可靠地运作。
具体怎么做:在本项目中,你将定义一个小规模、定制化的评估数据集。这会迫使你像一名质量保证(QA)专业人员那样思考。例如,你可以构造 10 个问题,它们的答案只能在你的个人文档中找到。即使是一个手工搭建的小数据集,也远胜于临时拍脑袋式的测试。它能将评估从主观感受,转变为一个客观可执行的过程。
第二步:清晰授权 —— 撰写任务说明书
为什么重要:构建一个 Agentic RAG 系统涉及多个技术步骤:处理文档、生成 embeddings、创建可检索的索引,并将其作为工具集成到 Agent 中。一份清晰、结构良好的任务说明书,是引导你的 AI 伙伴顺利走完这一多步骤流程、避免出错的关键。
具体怎么做:我们会为你提供一份起步提示词(starter prompt)。你需要理解其背后的逻辑。你将学会如何指挥 AI 执行复杂的数据工程任务,例如创建向量索引(vector index),以及如何撰写至关重要的系统提示词(system prompt),把一个简单的检索器(retriever)转变为你的 Agent 可自主调用的研究工具。
第三步:迭代反馈 —— 进行绩效复盘
为什么重要:你的数字分身在首次尝试时,可能会出现幻觉(编造事实)或召回不佳(找不到正确的信息)。一位优秀的管理者会发现失败,并诊断其根本原因:问题出在检索环节(AI 找不到正确的文档),还是生成环节(AI 拿到了文档但理解错了)?
具体怎么做:你将使用第一步中构建的评估数据集,对你的系统进行系统性测试。通过对照指标分析失败案例,你可以向 AI 提供高度具体的反馈,例如:“我们试着把文档切成更小的 chunk”或”我们在提示词中把这个工具的描述写得更明确一些”。这正是你将不断迭代、提升系统可靠性与智能水平的方式。