单轮对话虽然可以回答问题,但很难稳定地交付结果。在真实场景中,一个完整任务往往不仅仅是“生成答案”,还包含检索信息、调用工具、输出结构化结果、质量检查、失败重试,以及在结果不满意时进行多轮修正。这些行为并不是临时补丁,而是系统结构本身的一部分。因此,我们需要一种可分支、可循环、可观测的执行路径,而不是把所有逻辑堆进一段超长 Prompt。
传统软件流程通常是确定性的:输入固定、步骤固定、输出相对稳定。但 LLM 的特点恰恰相反——它“能力很强,但不完全稳定”。它可能答非所问、格式错误、产生幻觉,或者在调用工具时失败。这就引出了三个核心问题:
- 下一步并不唯一,需要根据当前结果动态决策路径;
- 当结果不理想时,系统需要自动修正,而不是直接失败;
- 中间状态必须被记录,否则难以调试、追踪与恢复。
正是在这样的背景下,工作流思维变得必要。它并不是把问题复杂化,而是在解释:为什么现代 AI 系统必须以这种方式构建。
以一个简单例子来看:当我们让 AI 写一篇文章时,一次生成的结果往往不够理想。直觉做法是手动复制结果,再附加新要求继续提问,但这种方式既不高效,也会快速消耗上下文。如果将这一过程结构化为“审查 → 修改 → 再审查”的循环,并设定停止条件(如达到质量标准或触达迭代上限),就能显著提升稳定性。
这正是 AI 工作流的核心价值:把一次性的生成过程,转变为一个可迭代、可收敛、可控制的系统化流程。

上图可以直观看到两类工作流的差异:传统 Workflow 更偏向“固定步骤 + 明确分支”的过程编排;AI Workflow 则更依赖运行时的状态(State)来动态决定下一步,并通过循环(Loop)把“生成—评估—修正”变成可收敛的过程。
先说基本定义:Workflow 就是为了完成某个目标,把任务拆成若干步骤,并规定这些步骤如何协作推进。它回答的问题是:“这件事怎么做完?”
在传统工作流体系中,流程设计通常强调顺序性与确定性。也就是说,大多数流程都可以被描述为一条清晰的路径:从起点出发,按照既定步骤逐步推进,最终抵达终点。例如审批流程、订单流转、ETL 数据管道等,基本都遵循“步骤 A 完成后进入步骤 B”的线性逻辑。即使存在分支,也往往是基于明确条件触发的有限选择,而不是开放式的不确定路径。
到了 AI 场景,同样的“流程”一词,承载的内涵发生了变化。相比传统工作流强调的顺序性与确定性,AI 工作流需要处理的是一个充满不确定性的执行环境。我们面对的不再只是“按步骤执行”,还包括:
- 结果是否达标要在运行时判断。
- 是否需要继续重试,要由当前状态决定。
- 某一步失败后,系统不再是简单的报错然后结束, 而是考虑是否应该降级、回退或换一种策略。
- 节点之间传递的不只是参数,还包括上下文、草稿、评分、错误信息、历史轮次等状态。
所以 AI Workflow 与传统 Workflow 的差异,不在于“有没有流程”,而在于它更强调动态决策 和 状态驱动。一旦我们想要表达下一步不唯一 或者 不满意就再来一轮,线性列表就不够用,自然会落到 Graph(结构) 与 Loop(回流) 这两类概念上。
沿用贯穿案例:假如我们要搭一条「生成初稿 → 质量审核 → 不达标则修改 → 再回到审核」的路径。这里每一步对应图的 Node,步骤之间的走向由 Edge 表达,整条链路读写的共享上下文就是 State。
图里最基础的元素有三个:
- Node(节点):表示一个执行单元, 其主要有三大功能: 读取state; 执行业务逻辑,加工state; 将加工好的state放回去。在文章审核例子里,典型有「生成初稿」「质量审核」「按反馈修改」; 此外还可以扩展检索、格式校验、人工审批等。
- Edge(边):是流程图中的控制流抽象,用于描述节点之间的执行路径及其触发条件,决定流程在运行时如何在不同节点之间进行调度与跳转。常见的边类型如下:
| 边的类型 | 解释 |
|---|---|
| 顺序边(Sequential Edge) | 节点按固定顺序执行,执行完当前节点后直接进入下一个节点,不依赖条件或状态判断。 |
| 条件边(Conditional Edge) | 根据当前 state 中的条件判断结果,选择不同的后续节点路径,实现分支逻辑。 |
| 动态边(Dynamic Edge) | 下一节点由运行时逻辑决定(如函数、规则引擎或 LLM 决策),路径在执行时动态生成。 |
| 循环边(Loop Edge) | 节点可以回到自身或前序节点重复执行,用于重试、迭代优化或循环推理,直到满足终止条件, 通常是由条件边与顺序边结合形成。 |
| 终止边(Terminal Edge) | 将流程引导至结束状态,不再继续执行后续节点,用于输出最终结果或结束工作流。 |
| 并行边(Parallel Edge) | 一个节点同时分发到多个后续节点并行执行,用于多任务处理、RAG/工具并发等场景。 |
- State(状态):表示在流程执行过程中持续被读写的共享上下文,是节点之间真正传递的“工作记忆”。它本质上是一个键值对结构(Key-Value Store)的上下文容器,用于在各节点之间传递和修改数据。在不同语言或框架中,通常使用等价的数据结构实现(如 Java 的
Map<String, Object>、Python 的dict、TypeScript 的Record<string, any>等),而不是限定于某一种具体实现。
下面是一些常用的状态字段(可根据实际业务自由扩展,不必拘泥于样例):
| Key(字段名) | Value类型 | 说明 | 生命周期 |
|---|---|---|---|
| input | String | 用户输入问题 | 全流程 |
| messages | List | 对话历史 | 全流程 |
| retrieval_result | List | RAG检索结果 | 中间 |
| tool_result | Object | 工具调用结果 | 中间 |
| llm_response | String | LLM原始输出 | 中间 |
| intermediate_steps | List | 中间执行步骤记录 | 全流程 |
| next_step | String | 控制流跳转节点 | 当前执行 |
| output | String | 最终输出结果 | 结束 |
如果只看 Node 和 Edge,我们会得到一张“能跑起来的路径图”;而把 State 一起放进来,我们才真正拥有了一张“可以在运行时做决策的图”。
总之图结构比线性结构更贴近 AI 系统的真实形态,因为很多 AI 应用的控制流本来就是图,只是早期常被临时写成 if-else、重试逻辑或分散在不同模块里的状态机。
在同一套「文章审核」里:审核不通过时,控制流不应结束,而应沿某条边回到「修改」或「重新生成」——这就是 Loop 在业务上的含义。技术上,它表现为图上的回流边。
很多人第一次接触 AI 工作流时,会把 Loop 理解成“多跑几次”。这不算错,但还不够准确。更合适的解释是:Loop 不是独立系统,而是图结构上的一种控制模式。当某条边根据当前状态把控制流送回到先前节点时,就形成了Loop, 正如上图所示, 重点在判断是否达标, 在循环的内部LLM会根据提示词的要求对结果进行"评分"如果满足就会输出否则"打回重写"。
常见的 Loop 主要有两种:
- 固定次数循环:更像
for。例如“最多重试 3 次”。 - 条件驱动循环:更像
while。例如“只要评分低于 80 分,就继续修改”。
AI 场景里,第二类通常更有代表性。因为“跑几次”往往不是先验确定的,而是由内容质量、工具执行结果、外部反馈共同决定的, 但是实际开发中两者必须同时使用, 因为LLM的不确定性可能会导致生成的内容会一直不合格, 此时我们就需要参考固定次数循环思想对内容进行降级兜底处理。
总之, 一个可靠的 Loop 一定包含三件事:
- 继续条件:为什么还要再来一轮。
- 退出条件:什么时候已经足够好,可以结束。
- 安全边界:最大轮次、超时、预算、熔断条件。
如果没有这些约束,Loop 很容易从“自我修正”变成“无限打转”。
仍然放回文章审核的例子里,Loop 并不是“多试几次”这么简单,而是“审核结论驱动下一跳”。只有当评分未达标、且还没超过最大轮次时,流程才会从 ReviewNode 回到 ReviseNode;一旦达到阈值或触发边界条件,就应该退出并给出结果。这时我们看到的就不只是循环,而是一种可控的回流机制。
到这里我们基本上了解差不多了,可以用一句话把三者的层次关系收束起来:Workflow 是目标与过程,Graph 是结构与载体,Loop 是图上的控制模式。
从业务视角来看Workflow:回答了“要做什么、如何完成” 对象是一个庞大的项目工程。
从结构视角来看Graph:回答了“这些步骤如何连接与流转”为实现Workflow提供了解决模板。
从思想视角来看Loop:回答了“什么时候重复执行”是保证工作流智能的核心思想。
继续沿用同一个“写文章并审核”的例子,那么三者的关系其实可以直接贴标签来看:
- 当我们说“先生成初稿,再审核,不达标就修改,直到达标后输出”,我们描述的是 Workflow。
- 当我们把
生成节点-> 检查节点-> 修正节点-> 检查节点画成节点与连线,并让它们共享同一份状态时,我们得到的是 Graph。 - 当我们规定“审核不通过就回到修改,直到评分达标或达到上限”为止,我们定义的就是 Loop。
所以这三者并不是三个并列的新名词,而是同一件事的三个观察角度:Workflow 关注任务目标,Graph 关注结构组织,Loop 关注回流控制。回到这篇文章的案例里,我们真正实现的始终只有一条流程,只是我们分别从业务、结构、控制三个层面在理解它。
上图可以看到高抽象工作流将四个判断节点抽象成一个判断节点: 评估是否达标。如果使用低抽象那么当我们需要减少/添加新的判断节点时需要花费时间去阅读源码寻找对应的节点, 由此我们可以得出: 一个好的工作流不是步骤堆得多,而是 Node / Edge / State 的抽象是否经得起复用与扩展。
很多初学者设计工作流时,容易把每一步都写成具体动作,例如:调用模型生成文案; 检查标题长度; 检查语气是否合适; 判断是否需要补资料; 再调用模型修改。这样做短期可用,但流程会越来越碎,复用性也很差。更成熟的方式是把流程抽象到更稳定的结构层:
- Node 抽象职责边界(在这个节点中产出的结果该是什么样子的, 必须出现哪些信息),而不是抽象这一次调了哪个 API。
- Edge 抽象流转规则(在什么状态下允许去哪、何时结束),用条件边表达分支与循环,而不是在图外写满 if-else
- State 抽象推进任务时必须持久记住的信息(工单快照、审核结论、重试次数、错误码等),让路径有据可依。
例如在“生成并审核文章”的场景里,与其设计十几个零散节点来检查文章标题符不符合题意, 文章字数是否满足要求,不如先抽象出几个更稳定的职责:
DraftNode:负责产出当前版本内容。ReviewNode:负责评估当前结果是否达标。ReviseNode:负责根据反馈修正内容。ExitNode:负责在满足条件时输出最终结果。
真正把工作流落地时,问题往往不出在“图不会画”,而出在细节没有提前设计好。下面这些是实践里最常见的坑。
- 太粗:所有东西都塞进一个大对象里,谁改了哪个字段不好查。
- 太细:字段拆得特别散,每个节点都要拼来拼去,容易出错。
- 建议:按业务含义分几块,例如「用户原始输入一块」「当前生成结果一块」「审核/评分结论一块」「流程控制用的一块(如当前步骤、重试次数)」
不要只写“如果不满意就继续优化”,而要明确:
- 最大轮次是多少?
- 评分阈值是多少?
- 超时或成本超限时怎么办?
- 连续失败后是否要 fallback。
AI 工作流不是只处理“成功路径”。工具异常、模型超时、格式校验失败、外部接口限流,都应在图上有明确边:重试、降级(例如跳过某工具)、转人工、或输出「当前最优 + 错误说明」,而不是只靠外围 try-catch 吞掉。
Loop 会自然放大 token 与延迟。设计时要提前思考:
- 哪些节点必须调用大模型,哪些可以用代码替代。
- 是否可以先粗筛,再精修。
- 是否需要在达到“足够好”时就提前结束,而不是追求“理论最优”。
节点之间传什么、字段名怎么定义、结构化输出采用什么 schema,都应该尽早统一(例如统一用 JSON schema 或 Pydantic 模型)。否则图一旦复杂,调试成本会急剧上升。
当我们开始用这套视角看问题时,工作流就不再只是一个可视化画布上的箭头图,而是一种工程建模能力。常见演进方向包括:
- Agent 化:节点从「固定脚本」变成「能自主选工具、拆子目标」的执行单元,但底层仍需要清晰的图与状态边界,否则难以观测与兜底。
- 多智能体协作:多个角色分工、对话或委托;与 CrewAI、LangGraph 多子图等思路一致,难点往往在共享 State 的权限与冲突解决。
- 人机协同:在关键节点插入人工审核、标注或纠偏,把 HITL(human-in-the-loop)当作一等公民写进图与状态机。
- 更长上下文与记忆:工作流与 RAG、会话记忆结合时,要特别注意 State 里哪些该进向量库、哪些只该留在本轮任务上下文,避免成本和隐私失控。
- Agent安全: 工作流的出现将大模型生成的内容由不可控变为部分可控, 但是对于一些场景还是具有严重的安全问题, 毕竟我们知道AI发展日新月异谁也不能保证AI完全可控。
工作流框架会换代,但 「图结构 + 状态 + 可控循环」 这层抽象会持续存在, 所以我们需要深入思考这种思想摒弃框架思维。
