Hualin Luan Cloud Native · Quant Trading · AI Engineering

Topic

Eval Harness

Agent 评测系统的设计与实践，涵盖过程度量、artifact-based scoring、trace 分析与基础设施噪音控制。

Eval Harness 是评估 Agent 系统能力的工程框架，它不仅要判断任务成败，更要解释系统行为、诊断失败原因。

评测维度

质量 (Quality): 任务是否做对
效率 (Efficiency): 成本、轮次、Token 消耗
可靠性 (Reliability): 同样条件下的稳定性
解释性 (Interpretability): 失败归因与成功溯源

关键挑战

Output-only Eval 的局限: 只看结果会误判系统行为
Skill Invocation 追踪: 确认成功是否来自正确的能力调用
Clean Sandbox: 评测可信度的前提条件
基础设施噪音: 环境变量对结果的影响

Index

知识索引

专题内的核心子主题与内容方向。

过程度量 vs 输出度量Artifact-based ScoringTrace 与 Invocation 分析基础设施噪音评测组织学

Reading paths

推荐阅读路径

按专题和顺序进入内容，快速建立整体理解。

Path

Eval Harness

查看专题 →

Agent 评测系统的设计与实践，涵盖过程度量、artifact-based scoring、trace 分析与基础设施噪音控制。

推荐路径和系列已经覆盖该专题的主要文章。

Resources

延伸资源

专题相关的外部资源与后续阅读入口。

LangChain Evaluating Skills

https://blog.langchain.com/evaluating-skills/

Anthropic Infrastructure Noise

https://www.anthropic.com/engineering/infrastructure-noise