Tag
Tracing
这里聚合所有与 Tracing 相关的文章与指南。
Eval Harness 2026/3/25
真正成熟的 Eval Harness,不会只盯着答案
如果一个 eval harness 只能告诉你任务成败,却解释不了 agent 是否调用了正确能力、在什么环境里执行、为什么失败、为什么成功,那它给出的就不是系统性判断,只是一块分数牌。本文基于 LangChain 对 skills eval 的讨论,延展出我对 artifact-based scoring、invocation metrics、trace design、workflow eval 与评测组织学的完整理解。
Evals Agent Skills Langsmith Tracing Agents