你现在在这里

序章 → 语言模型基础 → Agent 核心 → Memory 体系 → 多 Agent → 工具与框架 → 评估与进化 → 本体论与知识表示 → 自进化 Skills → 数据治理 → 实战案例

当前阅读：评估与进化

评估与进化预计阅读：4 分钟前置知识：建议先读前面全部主线模块

模块总览核心工程

这一模块关注如何让 Agent 系统变得可比较、可测量、可迭代，把优化过程从感觉层带回可验证层。

评估与进化

没有评估体系，Agent 的优化就会停留在感觉层面。

模块定位

Agent 不是一次性写完就结束的系统。只要系统具有不确定性，就必须建立评估、反馈和迭代机制。

适合谁读

已经开始构建 Agent 系统，希望把优化从经验判断变成可验证流程的人
想理解数据集、任务定义、奖励函数和回归测试关系的人
想评估 harness、skills、长任务连续性与运行时外壳的人
想建立系统级演化能力，而不是只盯着单次输出效果的人

进入前建议

已读 Agent 核心机制
最好已读 Memory 体系、多 Agent 系统与工具与框架

推荐顺序

先读 Agentic Eval 设计，理解应该评估什么、如何切分评估粒度。
再读奖励函数设计，看可执行任务里如何把目标映射成可优化信号。
最后读 Harness 与 Skill 的评估体系，把运行外壳、技能触发和系统级迭代真正接起来。

本模块文章

文章	类型	简介
Agentic Eval 设计	核心	理解评估目标、粒度和数据集设计
奖励函数设计	实战	理解在可执行任务里如何定义合理奖励
Harness 与 Skill 的评估体系	工程	理解长任务外壳和技能体系该如何被评估

学完后去哪里

这一模块本身就是主线的收束点。学完之后建议回到前面的模块，用评估视角重新审视自己的工具选择、上下文设计和系统架构。