Hualin Luan Cloud Native · Quant Trading · AI Engineering

文章

文章

这里专注全站文章浏览。你可以直接使用下方筛选器按关键词、专题、标签、分类和年份缩小范围,也可以切换卡片、列表和紧凑视图。

文章浏览

全站文章浏览

使用卡片、列表或紧凑模式浏览全站文章。视图偏好只保存在当前浏览器。

文章筛选

筛选文章

当前显示 72 / 72 篇文章

当前视图: 卡片

结果: 72 / 72

文章AI 编程评估

AI编程能力评估全景:从HumanEval到SWE-bench,基准测试的演进与选择

公开基准不是模型排行榜的装饰,而是理解AI编程能力边界的测量工具。本文从HumanEval、APPS、CodeContests、SWE-bench、LiveCodeBench和Aider等基准出发,说明如何读榜、如何选择基准,以及如何把公开评估转化为团队自己的Coding Mentor评估体系。

Ai Coding MentorProgramming BenchmarkOriginal InterpretationHuman EvalSwe Bench
文章AI 编程评估

从交付到训练:如何把AI编程协作变成Coding Mentor数据闭环

AI编程助手真正的组织价值,不只是提高交付速度,而是在每一次需求拆解、代码生成、评审修正、测试验证和上线复盘中沉淀可训练、可评估、可复用的导师信号。本文重构AI训练、AI辅助产品工程化交付、高质量SFT数据沉淀与模型评估的闭环框架。

Ai Coding MentorEvaluation SystemOriginal InterpretationData FlywheelAI 工程化
文章Eval Harness

Agent Benchmark 最容易误导人的,不是模型分数,而是基础设施噪音

在 agentic coding eval 里,模型并不是唯一变量。资源 headroom、kill 语义、并发压力、网络状态和 sandbox 行为都会改变任务结果。如果这些条件不透明,排行榜上的小分差往往没有看起来那么能说明问题。本文基于 Anthropic 对 infrastructure noise 的分析,延展出我对 agent benchmark 可解释性、披露纪律、重复实验与系统级评测观的完整理解。

EvalsInfrastructureBenchmarkAgentsAnthropic
文章Agent Harness

Agent Harness 不是配角,而是 2026 年 AI 工程最被低估的主战场

真正决定 agent 上限的,往往不是模型本身,而是围绕模型组织起来的 harness。本文基于 LangChain 对 agent harness 的拆解,延展出我对文件系统、代码执行、上下文管理、验证闭环与长时任务续航能力的完整理解,也解释了为什么 2026 年 AI 工程竞争的重心,正在从'模型能力'转向'工作系统设计'。

AgentsHarnessContext EngineeringAI 工程化Langchain
文章MCP Runtime

Agent Runtime 不一定要长在本地,Colab MCP 给了一个更现实的方向

Colab MCP 的价值不只在于把 Python 跑到云上,而在于它让 agent 的执行环境变成了可见、可编辑、可继续工作的 notebook 空间。对很多任务来说,真正重要的不是远程执行本身,而是远程工件如何支持人机协作。本文基于 Google 对 Colab MCP Server 的介绍,延展出我对 runtime surface、artifact-centered design、远程工作台与可见性信任机制的完整理解。

McpColabRuntimeNotebooksGoogle
文章MCP Runtime

MCP 改变的不是工具接入,而是 Agent 的成本结构

MCP 的真正意义,不只是统一工具接入,而是把大量本该由运行时处理的中间流程,从昂贵的 LLM 循环里迁出去。它改变的不是'能接多少工具',而是 agent 如何使用上下文、代码执行和运行时控制流。本文基于 Anthropic 对 code execution with MCP 的讨论,延展出我对 direct tool-calling、progressive disclosure、runtime economics 和 executable skills 的完整理解。

McpCode ExecutionContext EngineeringAgentsAnthropic
文章Eval Harness

真正成熟的 Eval Harness,不会只盯着答案

如果一个 eval harness 只能告诉你任务成败,却解释不了 agent 是否调用了正确能力、在什么环境里执行、为什么失败、为什么成功,那它给出的就不是系统性判断,只是一块分数牌。本文基于 LangChain 对 skills eval 的讨论,延展出我对 artifact-based scoring、invocation metrics、trace design、workflow eval 与评测组织学的完整理解。

EvalsAgent SkillsLangsmithTracingAgents
文章Agent Harness

长时任务 Agent 真正缺的不是智力,而是交接、恢复与验收能力

长时任务 agent 的失败,往往并不源于模型不会思考,而源于系统没有把'交接、恢复、验证、续跑'设计成一等公民。本文基于 Anthropic 对 long-running agent harness 的讨论,延展出我对跨会话执行、状态外化、feature contract、smoke test、browser verification 和多轮执行结构的完整看法,也解释了为什么真正可用的 agent,不是一次跑很久,而是一轮一轮接得住。

AgentsLong Running AgentsHarnessAnthropicVerification

RSS Subscribe

订阅更新

通过 RSS 阅读器订阅获取最新文章推送,无需频繁访问网站。

推荐使用 FollowFeedlyInoreader 等 RSS 阅读器