第一课:从 “我问你答” 到”我说你做”

我的理解

本课用三个阶段勾勒了 AI 协作范式的演进:ChatGPT 的”我问你答”只能给文字和思路,Copilot/Cursor 早期的”我说你写”实现了行内补全但仍止步于代码生成,而 2024 年底兴起的 Agentic AI(Devin、Agent Cursor 等)则把”我说你做”变成现实——AI 能自己装依赖、跑脚本、debug 直到交付成品。关键洞见是 Agentic AI 把”写代码”降级为实现目标的中间环节,人只需关注结果而非实现细节,从”AI 出菜谱、人下厨”变为”AI 从买菜到炒菜全包,人只品尝成品”。这一转变对生产力与角色分工都是一次深层冲击,也解释了为何这门课程要在当前时间点强调”机会窗口”。

相关链接


原文

Lesson 2 of 18 第一课:从 “我问你答” 到”我说你做”【视频 2】 大家好欢迎来到真正 a Show transcript ChatGPT:我问你答

如果你回想 2023 年年初的那个时间点,几乎所有人的社交网络上都在讨论同一个话题:ChatGPT。那个时候,你打开朋友圈、Twitter、知乎,甚至公司内部 Slack,你都会看到各种花式“炫技”的 Prompt:有人让 ChatGPT 写一首藏头诗、有人让它做一道高数题、还有人半开玩笑地问 ChatGPT 能不能接管人类。那个阶段,大家普遍认为 ChatGPT 特别“神”。在短时间内,这个工具让许多普通人第一次真正见识到大语言模型(LLM)在自然语言理解和回答层面上的强大。而我自己在那段时间,也的确被 ChatGPT 惊到过:它竟然能在几秒钟之内,写出一篇结构完整的散文、帮我起草一段开源项目的 Readme,甚至配合 Markdown 语法呈现出相当漂亮的排版。那种“我问你答”的直接爽快,很快让 ChatGPT 在短时间内积累了巨量的用户。

然而,随着几个月的新鲜感过去,慢慢地,很多用户会开始发现:ChatGPT 固然可以在对话中输出一段又一段高质量甚至有文采的文字,但它并不能直接处理更复杂的目标。它能输出一段 Python 代码,却没法真的去执行它;它能告诉你怎么做一张股票对比图,却没法自己把这张图画出来。即使是加入了网络搜索等功能,这依旧是一种“我问你答”的模式,只不过它从自己的“大脑”里答不出来,就去网上搜了一段参考资料,再转述给你。这固然比传统搜索引擎多了一层自然语言处理,但本质上依然需要人类去整合、去执行各种后续操作。

一个典型的小故事是,我当时想要做个简单的可视化:对比一下过去五年亚马逊和谷歌的股票走势。我先问 ChatGPT:“你能不能帮我做个对比图?”它立马给出一个听起来头头是道的回答:“由于我没有访问外部数据的能力,我只能给你一个示例……”。说白了,它就只能把可能的数据结构或者代码片段摆给我,却不能真的把股票行情抓出来、再画出图表。

要让 ChatGPT 给出真实的股价数据,我还得人工去下载 CSV、人工再写一段代码,然后自己去执行,最后拿到图。整个过程里,ChatGPT 只是在对话阶段提供了一个“思路建议”或者“参考代码”,并没有真正省掉我在执行层面的工作量。这就是“我问你答”模式最核心的局限:AI 只能给你文字和想法,后面的实现依然要人去补全。

Copilot/Cursor:我说你写

这种局限在最初可能不显得如此明显,因为 ChatGPT 本身带来的震撼就已经足够大:毕竟,之前我们很多人都还没见过如此流畅且“通情达理”的 AI。但随着时间推移,人们对生产力和效率的需求进一步提高,尤其是程序员、数据分析师这些群体,会愈发清晰地体会到“答案只是一半,能不能自动执行才是真正的效率解放”的渴望。与此同时,ChatGPT 那种纯文字回答模式也暴露出幻觉(hallucination)的种种问题:当 AI 编造了一些不真实的引用文献,或者写出一段带有逻辑缺陷的代码,人类还得多花时间来校对和修正。看起来好像“我问你答”还给我们带来了额外负担。

在 2023 年上半年,大家开始在 ChatGPT 的基础上进行各种衍生尝试。比如有人用 GPT API 写了个小脚本,让 ChatGPT 生成 Python 代码后,自动保存到本地再执行,试图做一个“自动化端到端流程”。还有人开始给 ChatGPT/GPTs 连接不同的插件,如搜索插件、抓取网页的插件、甚至在线执行命令行的插件。这一系列努力其实都想把 ChatGPT 从一个纯文字的回答者,变成一个更主动、更脚踏实地去做事的帮手。但在实操中,大家往往发现:这样拼凑出来的流程并不稳定,而且经常需要在多个 App 或多个插件之间来回拷贝。时间一长,那种“还是我在为 AI 打工”的无力感又出现了。

也就是在这种背景下,Copilot 以及一系列类似的“自动补全”工具,迅速走入大众视野。GitHub Copilot 一开始并没有让大家想到“AI 的突破”,但它在实际编程中的效率提升却实实在在。比如你在写一个函数,还没敲完关键逻辑,Copilot 就给出了自动补全,一键 Tab,你就能省下敲几十行代码的时间。

这甚至衍生出了一种新的编程方法:注释驱动编程。你只要在函数前写一句“# 该函数用于解析网页中的链接并返回字典结构”,Copilot 就自动把相关逻辑写好,效率非常可观。当时很多程序员都说“真香”,因为它变成了一种“我说你写”的用法:写注释,AI 来补完代码。与 ChatGPT 对比,Copilot 并不擅长回答一些通用常识问题,也不能给你做“人生建议”,但它在特定的场景——也就是编写代码——方面足够高效,且整合到了 VS Code 或其他 IDE,完全不需要你反复切换界面。这让人们对“AI 可以干实事”这个愿景又多了一分信心。

可是,等我们在 Copilot 里写了一段大功能、或者想修改多文件时,你会发现它依然只能帮助你局部补全。如果你要进行跨文件、全局的项目级重构,或者你要把写好的代码拿来执行、出结果,还是要你人工去做一堆粘贴和切换操作。于是,在 2023 年底就有了 Copilot Chat、Cursor Chat 这类产品的诞生,它们尝试在 IDE 里内置一个 Chat 窗口,希望用自然语言来批量改动多文件。这很明显是一个更进化的形态,因为你只需要在 Chat 窗口说一句“给我把所有函数都加上 docstring、并统一改成 async”,AI 就能一键搞定。你不必在每个函数头上写注释让 Copilot 猜,而是更明确地告诉 AI 自己的意图,让它一次性完成大批量操作。

这个时候,我们体会到的效率会大幅提升,有点像从“小工”进化到“包工头”——包工头一声令下,小工们各自干活,再把结果汇总起来。可即便如此,AI 并不会真的去跑这个代码,也不会自己安装依赖,更不会进行自我 debug。你还是要手动编译运行、把错误信息截图,再贴回 AI 看看它能不能帮你解决。

到这里,我们看到:传统 ChatGPT 之类的对话式 AI,让我们从“Google 搜索 + 人工整合”进化到“我问你答”,能省下不少阅读与整理资料的时间;而 Copilot 或 Cursor 早期版本等自动补全工具,又让程序员们从“我问你答”进化到“我说你写”,切切实实地提高了代码撰写的速度。在这两个阶段中,AI 都在不停给我们惊喜,但也都还没触及到“自动执行”这个层次。

我们真正想要的是一个能把繁琐的重复劳动彻底接管、能从头到尾把事情做完的 AI。假设你能对它说:“给我在当前项目里搞一个自动化分析,把过去五年几家科技公司的股票抓下来,做个比较,然后画一张图。如果抓数据时发生错误,你自己想办法 debug,直到成功。”在这个想象场景里,你完全不用手动安装依赖,也不用贴错误日志过去给它看——AI 自己就干了。这种愿景在 2023 年时看上去还很遥远,大多数人都认为 AI 只能输出文字,不可能真的自己执行命令、管理代码、修复错误。

Agentic AI:我说你做

然后,到了 2024 年底,市面上开始冒出一些名为“Agentic AI”的产品,或者说“多步决策 AI”,其中最典型的就是 Devin、Agent Cursor、Windsurf 等等。这些工具共同点在于:把 AI 与操作系统、终端命令行、外部工具深度整合,让 AI 能自己选择调用何种工具,并且在执行结果的基础上进行下一步决策。也就是说,如果在执行某个命令时遇到错误,它不会傻傻停住,而是会自己去分析报错信息,再修复脚本重新执行,一直到跑通为止。

最早有人把这种做法称为“AutoGPT”或“BabyAGI”,可那些实验性质的开源项目往往不够稳定,或需要大量繁琐配置。而 Devin、Agent Cursor 等则进一步完善了产品化,让你在一个统一界面里下达指令,AI 直接去跑命令、写代码、进行多轮迭代,最终把你要的成果交付出来,甚至中途都不需要你做多少手动操作。

如果说 ChatGPT/Claude 是“我问你答”,Copilot/Cursor(早期) 是“我说你写”,那么 Agentic AI 就是“我问你做”——你可以直接把任务结果作为需求告诉 AI,它就会自己设计思路,自己去执行,一步步完成目标。这个范式真正让人感到“哇,AI 终于不仅仅是个语言模型或代码提示工具,而开始像一个实习生或助理,可以实打实地完成一些工作量不小、环节众多的任务了”。

举个实际案例:在 Agent Cursor 里,我试过用一句话让它帮我画那张谷歌和亚马逊的股票对比图,不仅要把两个股票价格起点对齐,还要带有可视化、带趋势线。结果它就自己创建 Python 文件,自己安装需要的库(pandas、matplotlib、yfinance 之类),遇到少装依赖时自己改 requirements.txt,再跑一次,直到输出一张 .png 文件给我。我从头到尾几乎没干什么,只是把结果图拿过来贴到我的文档里。

这与过去 ChatGPT 给你一段 Python 代码可太不一样了——ChatGPT 出的那段代码要我去复制、去装库、出错了再贴回去问它怎么改。而现在在 Agentic AI 工具里,就好像跳过了这所有繁琐步骤,AI 自己就把程序跑通了。你只需要确认最终成果好不好就行。

另一个更有意思的例子是给图片加圆形遮罩。按过去的经验,我或许会想到用 Photoshop 或一些在线网站去做;但现在,只需要对 AI 说:“我有这张头像,想给它加一个圆形遮罩,并且去掉背景”,AI 就写了个命令行脚本,调 Pillow 或者 ImageMagick 之类的东西执行。如果第一次尺寸或效果不符合预期,你告诉它“再大一点”或“颜色柔和一点”,AI 又会改脚本重试。一来二去,几轮迭代后就能得到一张满意的透明 PNG。整个过程,人也没离开过一个 IDE 界面,甚至没有手动去找啥图像处理软件,就让 AI 给包办了。

从这个角度看,Agentic AI 彻底把“写代码”当成了实现目标的中间环节,而不是最终交付物(deliverable)。我们需要和关注的是结果,而非一堆实现细节。过去 ChatGPT/Copilot 那种“写好代码再给人类去执行”的模式,就仿佛是做饭前先让 AI 提供一道菜谱,而人类必须亲自下厨;如今 Agentic AI 则如同一个真实的厨房助理,从买食材到洗切炒全包了。你只要说你想吃什么,AI 就端出成品让你品尝——这当然会带来更大的冲击和更深层次的思考。