2026-03-19

准备把第一个 agent workflow 接进产品前,先写清这 4 个回滚点

很多团队不是死在模型不够强,而是死在第一条 agent workflow 一出错就不知道该停哪、怎么切回人工,所以回滚点要先于自动化本身写清楚。

7 分钟workflow / publish / feedback

别先问“自动化能跑多远”,先问“出错后怎么停”

很多人做第一个 agent workflow 时,最兴奋的是:

  • 能不能跨应用自动做事
  • 能不能把浏览器、邮件、项目管理工具都接起来
  • 能不能少一个人工步骤

但第一条真实 workflow 一旦出错,团队最先遇到的问题通常不是“模型不够聪明”,而是:

  • 哪一步该立刻停
  • 数据写了一半怎么办
  • 外部应用权限会不会继续误操作
  • 现在要不要切回人工

所以回滚点不是上线后再补的文档,而是上线前就该写清楚的边界。

这篇更适合谁

  • 准备把第一个 agent workflow 接进真实产品
  • 已经在看 LangGraph、CrewAI、Composio、Browserbase 这类工具
  • 不想第一轮就把系统做成不可控的黑盒

回滚点 1:哪一步开始产生外部副作用

先标出整条流程里,哪一步开始真的会改外部世界。

例如:

  • 发邮件
  • 建任务
  • 改 CRM 状态
  • 在后台点提交

在这一步之前,流程可以尽量自动;到了这一步之后,就要明确是否需要人工确认、白名单或审批。

回滚点 2:失败时能不能保留中间状态

第一条 workflow 不要追求“从头到尾一次成功”,而要先保证失败后还能知道它卡在哪。

至少要能回答:

  • 当前跑到第几步
  • 已经写入了哪些上下文
  • 哪一步失败了
  • 人工接手后从哪里继续

如果这些信息没有保留,再强的 agent 框架也会让排查成本越来越高。

回滚点 3:外部权限和执行环境能不能立即收口

像 Composio、Browserbase 这类工具能把真实权限和执行环境接进来,但这也意味着:

  • 一旦流程判断错,影响不再只停在本地
  • 出错后不只是重跑,还要考虑权限和会话收口

所以你至少要先定义:

  • 哪些账号是测试账号
  • 哪些操作只允许在 staging
  • 哪些连接一旦失败就必须终止,而不是自动重试到底

回滚点 4:什么时候强制切回人工

很多团队第一轮自动化失败,不是因为完全自动不行,而是因为没有写清“什么情况下必须人工接手”。

更稳的做法通常是先写 3 条人工接管规则,比如:

  • 置信度低于某个阈值时停下
  • 涉及付款、删除、发信这类高风险动作时停下
  • 跨两个以上外部系统仍无法拿到一致结果时停下

先把人工接管条件写清楚,比继续堆更多工具更重要。

一个更稳的第一条 workflow 形态

如果你今天就想开始,第一条 workflow 最好长这样:

  • 输入单一
  • 输出格式固定
  • 外部副作用少
  • 人工接管点明确

先把“可回滚”做对,再把“自动化范围”慢慢放大。

一句话建议

第一个 agent workflow 最该先写的不是宏大架构,而是四个回滚点:副作用开始处、中间状态保留、权限收口方式和人工接管条件。