Tag

Benchmark

这里聚合所有与 Benchmark 相关的文章与指南。

Eval Harness 2026/3/25

Agent Benchmark 最容易误导人的，不是模型分数，而是基础设施噪音

在 agentic coding eval 里，模型并不是唯一变量。资源 headroom、kill 语义、并发压力、网络状态和 sandbox 行为都会改变任务结果。如果这些条件不透明，排行榜上的小分差往往没有看起来那么能说明问题。本文基于 Anthropic 对 infrastructure noise 的分析，延展出我对 agent benchmark 可解释性、披露纪律、重复实验与系统级评测观的完整理解。

Evals Infrastructure Benchmark Agents Anthropic