Article

与AI协作的最佳实践：任务协议、对话控制与反馈闭环

给AI当Coding Mentor的核心技能不是写更长的提示词，而是设计任务协议、控制对话节奏、识别错误模式，并把协作过程沉淀为可验证、可复用的反馈信号。

专题 · AI 编程评估系列 AI Coding Mentor 系列 5/9

Ai Coding Mentor Human Ai Collaboration Original Interpretation Prompt Engineering Feedback Design

开头：为什么同样的AI，不同人用效果差很多

同一个 AI 编程助手，在不同团队、不同工程师手里，效果经常差很多。表面原因像是“会不会写 prompt”，但真正的差异通常不在措辞，而在协作方式：有人把 AI 当成一次性代码生成器，有人把 AI 放进一套有目标、有边界、有反馈、有验收的协作协议里。

如果只给 AI 一个模糊任务，例如“帮我写一个用户认证系统”，模型只能自己补全缺失条件：认证方式、token 策略、密码策略、错误处理、数据库表、刷新机制、安全边界。它可能给出一份看似完整的方案，但很多关键判断都不是团队做的，而是模型猜的。

更成熟的协作方式不是把需求写得无限长，而是先建立任务协议：目标是什么，非目标是什么，技术栈和接口边界是什么，哪些安全和性能约束不可让步，AI 先产出方案还是直接改代码，人类在哪些节点验收，失败后如何修正。协议越清楚，模型越不需要猜；人类越能控制节奏，输出越容易验证。

真正需要关注的不是“怎样让 AI 更听话”，而是“人类如何管理一次 AI 编程协作”。Coding Mentor 的价值不在于给出万能提示词，而在于把一次对话组织成可控的工程过程：先澄清，再生成；先验证思路，再扩展实现；先记录错误，再进入下一轮改进。

AI 编程协作协议

先固定任务协议，再开始对话

很多协作失败不是发生在代码生成阶段，而是发生在第一轮输入之前。任务目标不清、上下文不完整、验收标准缺失、修改边界模糊，都会让后续对话变成补救。

一个合格的 AI 编程协作协议至少包含六类信息。

协议要素	要回答的问题	如果缺失会怎样
任务目标	这次协作要解决什么问题，完成后如何判断成功	AI 可能实现了相邻但错误的问题
非目标	哪些事情本轮不做，哪些范围不能碰	输出膨胀，改动越界
上下文	相关代码、接口、约束、错误日志和业务术语在哪里	AI 根据通用经验猜测项目结构
角色分工	AI 负责分析、草案、实现、测试还是审查	人类无法判断何时介入
质量标准	功能、性能、安全、可维护性、测试覆盖如何验收	输出看似可用，但无法稳定评价
反馈规则	错误如何指出，修复如何验证，哪些结论需要保留	多轮对话无法沉淀经验

这六类信息不一定要一次性写成很长的 prompt。对于小任务，可以用几句话讲清楚；对于跨模块任务，应当把协议写成更稳定的任务卡或 issue 描述。重点不是形式，而是让 AI 的输出有边界，让人类的反馈有依据。

协议还要区分“可变条件”和“不可变约束”。可变条件可以让 AI 提建议，例如是否选择某个缓存策略、是否拆分函数、是否补充辅助测试；不可变约束必须由人类明确，例如不能修改公共 API、不能引入新依赖、不能降低权限校验、不能绕过现有测试。

当协议写清楚后，首轮对话的目标不应该是马上拿到完整代码，而是确认模型是否正确理解任务。对于复杂任务，先要求 AI 复述目标、列出假设、识别风险、给出计划，比直接让它写代码更稳。这样能把错误拦在设计阶段，而不是在实现完成后才返工。

三种对话模式：不是技巧分类，而是风险控制方式

“引导式、对抗式、协作式”很容易被理解成三种聊天技巧。更准确地看，它们是三种风险控制方式。

引导式对话用于澄清和学习。它适合需求不完整、问题结构不清、模型容易跳到实现细节的场景。人类通过连续追问，让 AI 暴露假设、补齐边界、解释权衡。它的目标不是让 AI 一次答对，而是让任务逐步可理解。

对抗式对话用于验证和压测。它适合模型已经给出方案，但方案可能忽略边界、性能、安全或异常路径的场景。人类不是为了反驳而反驳，而是用极端输入、资源约束、并发条件、失败场景和反例去测试方案。它的目标是让隐藏风险显性化。

协作式对话用于交付和集成。它适合已经有任务协议和基本方案，需要在实现、测试、审查、文档之间分工推进的场景。人类掌握架构和验收，AI 承担草案、局部实现、测试建议和风险检查。它的目标是提高交付效率，但不放弃人类控制权。

三种对话模式的风险控制

三种模式不是互斥的。一个真实任务通常会经历模式切换：先用引导式澄清需求，再用协作式生成方案和局部实现，随后用对抗式压测边界，最后回到协作式补测试和文档。

关键在于知道当前对话处于哪一阶段。如果需求还没清楚就进入协作式实现，AI 会很快生成大量错误细节；如果方案还没成形就进入对抗式质疑，对话会变成空泛争论；如果已经到了验收阶段还只做引导式提问，任务会迟迟无法收敛。

反馈设计：从“感觉不好”到可修正信号

AI 编程协作的质量，很大程度取决于人类反馈质量。模糊反馈只能带来随机修正，结构化反馈才能让模型知道要改什么、为什么改、如何证明改对。

无效反馈通常有三个特征：只表达满意度，不指出证据；只说“重写”，不说明违反了哪条约束；只要求“更好”，不定义更好的标准。这样的反馈会让模型在风格、结构和实现之间随机游走。

有效反馈应该包含四个层次。

反馈层次	内容	作用
事实证据	哪段输出、哪条测试、哪个日志或哪个需求被违反	避免主观争论
错误类型	是接口错误、边界遗漏、性能问题、安全风险还是修改越界	让错误可分类
修正方向	需要补约束、改实现、补测试、缩小范围还是重新设计	让下一轮可执行
验收方式	修正后用什么测试、rubric 或人工检查证明有效	避免反复返工

例如，“这里不够健壮”不是有效反馈；“当输入列表为空时当前实现会访问第一个元素，违反了题面中的空输入契约；请补充空输入分支，并新增一个覆盖空列表的单元测试”才是有效反馈。前者表达感受，后者提供证据、错误类型、修正动作和验收标准。

反馈还需要分级。不是所有问题都同等重要。安全漏洞、数据损坏、权限绕过、公共 API 破坏属于必须修复；命名、注释和局部结构通常属于质量改进；风格偏好如果没有团队规范支持，就不应当阻塞任务。分级反馈可以减少对话噪声，让 AI 和人类都聚焦高风险问题。

对话控制：让多轮协作可收敛

多轮对话的风险在于发散。AI 会随着上下文累积逐渐丢失早期约束，人类也容易在新的建议里偏离原目标。Coding Mentor 需要主动控制对话收敛。

第一，阶段要清楚。需求澄清、方案设计、接口确认、实现、测试、审查、文档，每个阶段的产出不同。不要在需求澄清阶段要求完整代码，也不要在代码审查阶段重新讨论业务目标，除非发现目标本身错误。

第二，检查点要明确。长任务至少要设置几个同步点：方案确认前不写代码，接口确认前不铺开实现，核心逻辑通过前不补文档，测试失败未解释前不合并修复。检查点越清楚，越能避免模型连续生成大量不可用内容。

第三，上下文要压缩。长对话中，需要定期让 AI 总结当前约定：目标、非目标、接口、风险、已完成、待完成、未决问题。这个总结不是为了好看，而是为了防止后续回合覆盖早期约束。

第四，验收要前置。每一轮输出都应该知道下一步如何判断质量。方案要能被约束检查，代码要能被测试检查，测试要能被失败模式检查，文档要能被读者任务检查。没有验收标准的多轮对话，只是在堆内容。

从一次协作到 Mentor 信号

这里也是协作方法走向案例研究和数据闭环的关键：协作过程本身可以产生 Mentor 信号。一次 AI 对话里，哪些内容值得留下，不是看语言是否流畅，而是看它能否帮助后续评估、训练或治理。

值得沉淀的信号包括：任务协议中不可变约束，AI 的错误假设，人工反馈的证据，修复前后的差异，测试失败和通过记录，最终验收结论，以及哪些数据不能进入训练或评估。

不值得沉淀的是临时话术、一次性情绪评价、无法复现的主观体验、没有上下文的代码片段，以及已经包含敏感信息或许可证风险的原始内容。

协作反馈闭环

这也是为什么“提示词模板”不应成为文章中心。模板会过期，协作协议不会。某个模型今天需要非常明确的格式提示，明天可能因为工具调用或上下文机制升级而不再需要；但任务目标、不可变约束、错误证据、rubric 和验收机制仍然有效。

真正可复用的是人类判断。判断哪些需求必须澄清，哪些边界必须压测，哪些输出必须拒绝，哪些反馈可以进入错误类型库，哪些会话记录可以进入后续数据闭环。这些判断才是 Coding Mentor 能力。

一个工程任务的协作路径

可以用一个支持限流的 HTTP 客户端作为例子，但重点不是展示十轮 prompt，而是看一次协作如何被组织。

第一阶段是任务协议。团队先明确：要支持 QPS 限流、并发数限制、熔断和重试；技术栈是 Python 和 httpx；不引入重型依赖；需要覆盖异步调用、异常分类、metrics 和测试。这个阶段的验收标准是 AI 能复述目标、列出边界和提出实现计划。

第二阶段是方案设计。AI 可以提出令牌桶、漏桶、滑动窗口、信号量和熔断状态机等方案，人类负责做取舍。比如令牌桶允许突发，漏桶更平滑，滑动窗口精度更高但成本更大。这个阶段的关键不是让 AI 选一个听起来高级的方案，而是让它说明方案与约束的匹配关系。

第三阶段是接口确认。先确认配置对象、客户端生命周期、异步上下文管理、错误类型、metrics 输出和测试入口。接口未确认前，不应展开核心实现。否则实现细节会提前固化，后面再改接口成本很高。

第四阶段是局部实现。AI 可以负责限流器、熔断器、重试策略或测试草案中的某一块。人类需要控制修改范围，避免 AI 一次性生成所有模块后难以审查。每个模块完成后都要回到任务协议检查：是否满足不可变约束，是否引入新风险。

第五阶段是对抗验证。用高并发、失败风暴、配置为零、超时、取消任务、服务恢复、重复异常等场景压测。这个阶段不是为了让 AI 继续写更多代码，而是验证它之前的实现是否真的满足协作协议。

第六阶段是沉淀信号。最终留下的不只是代码，还有哪些边界必须测试、哪些错误类型最常见、哪些反馈能让模型稳定修正、哪些任务适合 AI 先做草案、哪些部分必须人类主导。这些内容会进入后续案例、评估和数据闭环。

常见反模式

第一种反模式是把 AI 当搜索框。只抛一个任务名，等待完整答案，然后根据感觉满意或不满意。这样做的问题是人类没有提供约束，也没有保留验收权。

第二种反模式是用更长的 prompt 掩盖不清晰的判断。长 prompt 不等于好协议。如果目标、非目标、约束和验收仍然混乱，写得越长，模型越容易抓错重点。

第三种反模式是把反馈写成情绪评价。“不够好”“太啰嗦”“再专业一点”都无法稳定指导修正。反馈必须连接到证据、错误类型和验收标准。

第四种反模式是让多轮对话无限发散。每一轮都新增需求、换方案、扩范围，最后得到的是一堆看似完整但无法验证的内容。好的协作需要阶段、检查点和停止条件。

第五种反模式是只沉淀 prompt，不沉淀判断。团队保存了一堆模板，却没有保存错误类型、rubric、测试证据和验收结论。模板迁移到新模型后很快失效，判断资产才会长期有效。

结语：协作能力是 Mentor 能力的入口

与 AI 协作不是一门玄学，也不是简单的提示词技巧。它是一套工程控制方法：用任务协议减少模型猜测，用对话模式控制风险，用结构化反馈驱动修正，用验收机制防止输出漂移，用协作记录沉淀 Mentor 信号。

当这套方法稳定下来，团队就不再只是“使用 AI”，而是在训练自己如何校准 AI。人类不需要每次都亲自写所有代码，但必须决定目标、边界、风险、验收和反馈。这个角色，就是 Coding Mentor。

下一篇会进入案例研究：在模型选型、反馈协议、代码审查和编程教育四类场景里，如何把这些协作方法转化为可评估、可训练、可复用的工程资产。

参考与致谢

Chain-of-Thought Prompting — Wei et al., Google Research
ReAct — Yao et al., Princeton

Series context

你正在阅读：AI Coding Mentor 系列

当前为第 5 / 9 篇。阅读进度只写入此浏览器的 localStorage，用于回到系列页时定位继续阅读入口。

查看完整系列 →

Reading path

继续沿这条专题路径阅读

按推荐顺序继续阅读 AI 编程评估相关内容，而不是只看同专题的随机文章。

查看完整专题路径 →

Next step

继续深入这个专题

如果这篇内容对你有帮助，下一步可以回到专题页继续系统阅读，或者订阅后续更新。

返回专题页订阅 RSS 更新

RSS Subscribe

订阅更新

通过 RSS 阅读器订阅获取最新文章推送，无需频繁访问网站。

推荐使用 Follow 、Feedly 或 Inoreader 等 RSS 阅读器

评论与讨论

使用 GitHub 账号登录参与讨论，评论将同步至 GitHub Discussions

正在加载评论...

开头：为什么同样的AI，不同人用效果差很多

先固定任务协议，再开始对话

三种对话模式：不是技巧分类，而是风险控制方式

反馈设计：从“感觉不好”到可修正信号

对话控制：让多轮协作可收敛

从一次协作到 Mentor 信号

一个工程任务的协作路径

常见反模式

结语：协作能力是 Mentor 能力的入口

参考与致谢

你正在阅读：AI Coding Mentor 系列

当前系列章节

继续沿这条专题路径阅读

为什么你需要给AI当Coding Mentor？

AI编程能力评估全景：从HumanEval到SWE-bench，基准测试的演进与选择

如何设计高质量的编程题目：从题面到评估契约

继续阅读这个专题

AI能力评估四步法：从一次测试到持续评估系统

实战案例：反馈协议、评估闭环、代码审查与编程教育数据

从交付到训练：如何把AI编程协作变成Coding Mentor数据闭环

继续深入这个专题

订阅更新

评论与讨论