Tag

Agents

这里聚合所有与 Agents 相关的文章与指南。

Eval Harness 2026/3/25

真正成熟的 Eval Harness，不会只盯着答案

如果一个 eval harness 只能告诉你任务成败，却解释不了 agent 是否调用了正确能力、在什么环境里执行、为什么失败、为什么成功，那它给出的就不是系统性判断，只是一块分数牌。本文基于 LangChain 对 skills eval 的讨论，延展出我对 artifact-based scoring、invocation metrics、trace design、workflow eval 与评测组织学的完整理解。

Evals Agent Skills Langsmith Tracing Agents

Eval Harness 2026/3/25

Agent Benchmark 最容易误导人的，不是模型分数，而是基础设施噪音

在 agentic coding eval 里，模型并不是唯一变量。资源 headroom、kill 语义、并发压力、网络状态和 sandbox 行为都会改变任务结果。如果这些条件不透明，排行榜上的小分差往往没有看起来那么能说明问题。本文基于 Anthropic 对 infrastructure noise 的分析，延展出我对 agent benchmark 可解释性、披露纪律、重复实验与系统级评测观的完整理解。

Evals Infrastructure Benchmark Agents Anthropic

Agent Harness 2026/3/25

长时任务 Agent 真正缺的不是智力，而是交接、恢复与验收能力

长时任务 agent 的失败，往往并不源于模型不会思考，而源于系统没有把'交接、恢复、验证、续跑'设计成一等公民。本文基于 Anthropic 对 long-running agent harness 的讨论，延展出我对跨会话执行、状态外化、feature contract、smoke test、browser verification 和多轮执行结构的完整看法，也解释了为什么真正可用的 agent，不是一次跑很久，而是一轮一轮接得住。

Agents Long Running Agents Harness Anthropic Verification

MCP Runtime 2026/3/25

MCP 改变的不是工具接入，而是 Agent 的成本结构

MCP 的真正意义，不只是统一工具接入，而是把大量本该由运行时处理的中间流程，从昂贵的 LLM 循环里迁出去。它改变的不是'能接多少工具'，而是 agent 如何使用上下文、代码执行和运行时控制流。本文基于 Anthropic 对 code execution with MCP 的讨论，延展出我对 direct tool-calling、progressive disclosure、runtime economics 和 executable skills 的完整理解。

Mcp Code Execution Context Engineering Agents Anthropic

Agent Harness 2026/3/25

Agent Harness 不是配角，而是 2026 年 AI 工程最被低估的主战场

真正决定 agent 上限的，往往不是模型本身，而是围绕模型组织起来的 harness。本文基于 LangChain 对 agent harness 的拆解，延展出我对文件系统、代码执行、上下文管理、验证闭环与长时任务续航能力的完整理解，也解释了为什么 2026 年 AI 工程竞争的重心，正在从'模型能力'转向'工作系统设计'。

Agents Harness Context Engineering AI 工程化 Langchain