Article

JIT 与 AOT：从症状、诊断到优化决策

面向 HotSpot、Graal、Native Image 与 PGO 的性能诊断和决策路径。

Java Jit Native Image Graalvm Performance

JIT 与 AOT：从症状、诊断到优化决策

核验与阅读口径：本文核验日期为 2026-05-15。正文涉及 HotSpot、Graal、JVMCI、Native Image、PGO、JFR、JITWatch、PrintCompilation、PrintInlining、async-profiler、JDK 25/26/27 发行线等快变事实时，统一采用保守口径：只解释机制、边界与诊断方法，不把某个阈值、某组默认值、某个发行版行为或某个性能收益写成永久事实。读者在生产环境做决定前，仍应以自己锁定的 JDK、发行商文档、PrintFlagsFinal 输出、JFR 记录和压测结果为准。

摘要

这篇文章回答一个在真实项目里经常被问错的问题：当 Java 应用出现启动慢、预热长、CPU 高、P99 抖动、吞吐上不去、容器 RSS 偏大或者 Native Image 构建复杂时，我们到底是在面对“JIT 问题”，还是在面对类加载、GC、锁竞争、I/O、容器配额、框架初始化、下游依赖、镜像构建形态和错误 benchmark 共同交织的系统问题。很多团队一看到性能异常就立刻搜索某个 -XX 参数，或者把一次 JMH 结果直接上升为架构结论；结果不是把问题修好，而是把排障路径进一步污染。JIT 与 AOT 都是手段，真正需要被优化的是系统中的瓶颈路径，而不是我们对编译器的想象。

从架构视角看，HotSpot 的解释器、C1、C2、OSR、去优化、代码缓存与编译线程是一条持续自适应的运行时链路。它适合长时间运行、热点稳定、愿意接受预热成本并希望利用真实 profile 获得更高峰值吞吐的服务。Graal 和 JVMCI 提供了另一条编译器演进路线，但它们也不是“打开就更快”的万能开关；它们改变的是编译器实现、优化空间和某些工作负载上的决策质量，并不会替团队完成版本核验、压测设计和生产回滚。Native Image 与其他 AOT 形态则把重点转向启动时间、常驻内存、部署形态与闭世界分析成本，它们解决的是另一组问题：如何减少运行时动态性，换取更早确定的二进制和更低的冷启动代价。

因此，诊断路径不应按“编译器原理百科”或“参数大全”组织，而应按“从症状到诊断再到优化决策”的顺序展开。先从症状出发，区分启动慢、预热长、峰值差、延迟抖动和内存偏大这些看似相近但根因不同的问题；再解释 JVM 的执行模式与分层编译，为何 profile 稳定性决定优化质量；再看 JIT 到底能优化什么、为什么这些优化会失效；随后把 Graal、JVMCI、Native Image 和 PGO 放到各自正确的边界里；最后再用工具链、故障路径、benchmark 证据和决策矩阵收敛。真正需要建立的能力是：什么情况该去看 JFR，什么情况该去看 PrintInlining，什么情况该怀疑容器 CPU throttling，什么情况该考虑 Native Image，什么情况最正确的决策其实是什么都不要改。

1. 性能问题先从症状开始

本章回答的问题是：当业务方说“Java 很慢”时，架构师第一步到底该问什么。读完这一章，读者应该能把启动慢、预热长、峰值吞吐差、CPU 高、尾延迟抖动和 RSS 偏大分成不同诊断入口，而不是用一个“JIT 优化”概念统统打包。生产边界是：症状只是入口，不是结论；排障时要先建立假设，再选工具。常见失败模式是把任何慢都归因给 JIT，把任何启动优势都归因给 AOT，或者把任何内存差异都归因给堆大小。

1.1 启动慢、预热长、峰值差不是一个问题

很多团队第一次讨论 JIT 与 AOT 时，实际上是在拿三类完全不同的问题说同一件事。第一类是启动时间，也就是从进程被拉起到第一个可接受请求之间经过了什么。这里面既可能有解释器与初始编译的影响，也可能有 Spring 上下文装配、类路径扫描、反射元数据准备、配置中心拉取、证书与 DNS 初始化、数据库连接池预建、缓存预热、镜像层解压、容器镜像拉取甚至探针策略的问题。第二类是预热时间，也就是服务已经可用，但前几分钟的吞吐和延迟为什么与稳态差距很大。它通常与 profile 收集、热点形成、缓存命中、JIT 编译、动态类加载和真实流量分布相关。第三类是峰值性能，也就是系统在稳定运行后为什么仍然不如预期，这时才更有可能讨论内联、逃逸分析、去虚化、循环优化、GC 压力与下游系统配合问题。

把这三件事混在一起会直接破坏决策质量。比如某个 API 网关在冷启动阶段表现差，并不自动说明它应当切换到 Native Image，因为它真正的瓶颈可能是启动后第一轮 TLS 证书读取和配置反序列化；相反，一个 CLI 工具每次只执行几百毫秒，即使峰值代码在 JVM 长时间运行后可能更快，也几乎没有机会等到 C2 的收益出现。还有一种常见误判是：服务在压测的前五分钟很慢，团队就把这当成“JVM 先天不适合这个场景”，却没有把压测分成冷启动段、预热段和稳态段，更没有观察编译事件和代码缓存变化。没有时间维度的性能结论，通常都不可靠。

从工程管理角度看，启动、预热和峰值分别对应不同目标。启动时间影响扩缩容、发布窗口、容器重建与函数冷启动体验；预热曲线影响灰度发布、自动扩缩容期间的短时 SLA 和高峰期恢复速度；峰值性能影响长期 CPU 成本与单机吞吐。如果团队没有先说清自己最在意哪一个指标，就不可能在 JIT 与 AOT 之间做出正确选择。很多“Java 换原生镜像后性能更好”的故事，其实只是在启动维度获利，却在长时吞吐、调试难度或闭世界约束上付出了别的成本；同样，很多“JIT 最终更快”的论证，也只是站在长时稳态服务的角度，却忽略了平台实际关心的是一分钟内的冷启动预算。

1.2 CPU 高、延迟抖、内存大并不自动指向 JIT

第二个常见误区是把所有资源异常都解释成编译器问题。CPU 高可能来自 JSON 序列化、日志格式化、压缩、加解密、正则表达式、对象分配风暴、锁竞争、内核态上下文切换、容器限额下的 throttling，也可能来自真实的 JIT 编译开销，但它们在诊断工具里呈现的形态并不一样。尾延迟抖动也一样：JIT 编译、去优化、代码缓存刷新、GC、线程池饱和、数据库慢查询和第三方接口超时都可能表现成 P99 尖刺；如果团队只凭一张监控图就下结论，很容易把系统问题误判成 VM 问题。

内存问题尤其容易被说错。容器里看到的 RSS 从来都不只是 Java heap。它还可能包含 metaspace、代码缓存、线程栈、本地库、直接内存、页缓存、glibc 分配器保留空间和框架原生组件。AOT 镜像常被描述为“内存一定更低”，但更准确的表述是：在不少启动敏感、依赖可控、动态行为有限的场景下，原生镜像可以减少 JVM 运行时组件的常驻开销；是否整体更省内存，仍取决于应用初始化策略、库兼容性、原生分配行为和操作系统页缓存命中。相反，JIT 服务的 RSS 更高，也不等于就“浪费”了内存，因为它换来的可能是更高吞吐、更强动态性和更成熟的诊断体验。

更进一步说，CPU、延迟和内存三类症状之间还会互相伪装。比如对象分配风暴会一边抬高 CPU，一边增加 GC 压力，再通过停顿和 safepoint 协调把尾延迟打坏；又比如编译线程在冷启动阶段抢占 CPU，会让业务线程看起来“吞吐很差”，同时因为实例迟迟进不了稳态而表现出更高的单位请求内存占用。如果团队只按单指标拆问题，很容易把同一个根因拆成三个表面问题，分别交给三个不同的人去各调各的参数，最后谁都得不到完整解释。架构师的工作恰恰是反过来，把这些症状重新串回同一条系统路径：它们是同因多果，还是只是恰好同时发生。

还有一些误判来自观察口径本身。比如有人用节点级 CPU 利用率判断“Java 很占 CPU”，却没有看到该 Pod 实际发生了严重 throttling；有人用 APM 的平均响应时间判断“优化有效”，却没有保留 P95/P99；有人看 RSS 降了就宣布内存优化成功，却没意识到代码缓存或页缓存形态已经变了；还有人拿压测期的 CPU 火焰图解释线上长时间运行问题，却忽略生产流量里的类型分布和租户路径完全不同。性能诊断如果没有明确“观察的是哪一层、哪个时间窗、哪类负载”，很容易把看似精确的图表变成误导证据。

架构师需要把这些症状拆成可验证问题。CPU 高时，先确认是业务线程、GC 线程、编译线程还是内核态热点；延迟抖时，先确认抖动发生在启动后多久、是否与编译事件或 GC 事件同频、是否只在流量模式变化时出现；RSS 高时，先确认堆、直接内存、metaspace、代码缓存和线程栈分别增长了多少。只有把问题拆到这个粒度，后续看 JFR、async-profiler、jcmd VM.native_memory、Compiler.codecache 或容器 cgroup 指标才有意义。否则“CPU 高所以调编译阈值”“内存大所以换 Native Image”这种做法，本质上只是把猜测伪装成方案。

1.3 首轮排查应该拿到哪些证据

症状进入诊断前，最重要的是拿到最小但足够的证据集合，而不是立刻加参数。对于 JIT/AOT 相关问题，首轮证据通常至少应包括四类。第一类是运行时身份信息：JDK 供应商、主版本、构建号、容器 CPU 和内存限制、启动参数、GC 选择、是否启用分层编译、是否使用 GraalVM 或 Native Image。第二类是时间维度证据：启动耗时、首个请求耗时、五分钟预热曲线、稳态吞吐和 P95/P99 延迟。第三类是运行时内部证据：JFR 里的编译、分配、锁、GC 和异常事件，必要时再配合 PrintCompilation 或 PrintInlining。第四类是系统外部证据：数据库、缓存、消息队列和第三方依赖的延迟变化，以及容器或节点层的 CPU throttling、磁盘和网络情况。

这些证据之所以重要，是因为它们决定了诊断的方向。如果没有运行时身份信息，你无法判断某个 flag 是否真的存在、某个默认值是否来自当前 JDK；如果没有预热曲线，你无法区分“启动慢”与“预热长”；如果没有 JFR，你无法确认 CPU 高到底花在编译、分配还是业务方法上；如果没有系统外部证据，你又可能把数据库连接池耗尽误写成“JIT 还没热起来”。很多性能事故并不是因为工程师不会调参数，而是因为从第一步开始就没有建立正确的证据包。

生产团队还需要给自己一个边界原则：首轮排查的目标不是马上找到唯一答案，而是把不可能的方向排除掉。比如确认 CPU 尖刺只出现在发布后前两分钟、同时 JFR 里有集中编译事件，那才值得继续沿编译路径深挖；如果 CPU 持续高企但火焰图大头是 JSON 序列化或数据库驱动，那编译器顶多是次要因素。排障不是“证明我最喜欢的解释是对的”，而是“用最少的证据尽快缩小空间”。这一章的结论是：在 JIT/AOT 主题下，症状优先于理论，证据优先于参数。下一章要回答的是：为什么同样是 Java 代码，解释器、C1、C2、Graal 和 AOT 会把它们带到完全不同的执行状态。

1.4 为什么同一个投诉会拆成不同工单

在真实组织里，性能投诉从来不是以“JIT 优化失败”这样的术语进入排障系统的。它通常会以“扩容后新实例经常慢两分钟”“某批租户升级后 API 忽然波动”“夜间批处理切到新镜像后总 CPU 高”“函数冷启动虽然快了但偶发功能异常”这类业务语言出现。架构师如果不能把这些业务语言映射成不同的技术工单入口，团队就会在最开始把问题装进错误抽屉。很多公司里同一条投诉会被平台团队、业务团队、基础设施团队和 JVM 专家同时接到，就是因为最初没有完成这种映射。

正确的做法，是先把投诉拆成“哪一类时间窗、哪一类资源、哪一类业务路径”三个维度。时间窗决定这是冷启动、预热还是稳态问题；资源维度决定先看 CPU、内存、I/O、锁还是下游；业务路径决定是所有请求都受影响，还是只有特定租户、特定接口、特定任务类型出问题。一旦这三维被说清楚，工单责任边界就会自然收敛。比如“只在新实例启动后一百秒内、仅对带某个高级特性的租户请求、表现为 P99 尖刺”这种描述，显然比“Java 很慢”更接近可执行诊断。

这一步还有一个组织收益：它让团队更容易积累复盘材料。长期来看，很多性能事故并不是全新的，而是在新的流量、版本或部署形态下重复出现旧模式。如果投诉一开始就被拆成结构化症状词典，后续复盘、runbook 设计和知识库检索都会变得容易。对内容库或工程知识平台来说，这一点非常关键，因为它决定了未来的人能不能快速复用今天的判断，而不是每次都从“也许是 JVM 的问题”重新开始。

2. JVM 执行模式与分层编译

本章回答的问题是：JVM 到底如何从字节码走到机器码，以及为什么这个过程天然带有时间维度。读完这一章，读者应该能区分解释执行、C1、C2、OSR、去优化和代码缓存各自承担的角色，并理解为什么“某个阈值到达就一定怎样”是危险说法。生产边界是：执行模式解释的是运行时行为框架，不提供脱离版本和 workload 的固定性能承诺。常见失败模式是把 JIT 理解成一次性编译完成的静态过程，或者把某个版本博客里的阈值数字当成所有 JVM 的事实。

2.1 解释器、C1、C2 与 OSR 各自解决什么问题

解释器的价值不是“慢”，而是“快启动并开始收集证据”。方法第一次被调用时，JVM 不需要等待高成本优化器完成工作就能立刻执行，这让应用有机会在冷阶段先活起来。随着方法调用次数、分支分布和类型 profile 积累，C1 会以相对较低的编译成本把热点路径从解释器中提出来，换取更平滑的预热曲线。C2 则会在 profile 更稳定、热点更明确时，投入更大的编译预算进行更激进的优化。OSR，也就是栈上替换，则解决“一个长循环已经在解释器里跑起来了，还能不能中途切到编译版本”这个问题。没有 OSR，长循环热点可能要等到下一次方法调用才享受到编译收益。

架构上最重要的理解是：这些阶段不是谁替代谁，而是按成本与收益分层协作。解释器对冷代码更友好，因为冷代码根本不值得付出高编译成本；C1 对中短生命周期的热点更友好，因为它在编译速度和优化质量之间折中；C2 则在热点稳定时追求峰值性能。所谓“JIT 更快”并不意味着每一行代码从进程启动的第一毫秒开始就享受同样优化。性能曲线之所以有预热段，本质上就是因为运行时正在把有限的编译预算投向它认为值得的热点区域。

这种分层还意味着“代码长得像什么”会影响编译结果。短小、类型稳定、控制流明确的方法，更容易在 C1 和 C2 阶段获得高质量优化；异常路径密集、反射和动态代理频繁、类型分布复杂或方法体庞大的代码，则更可能让编译收益推迟、减弱或失效。因此，理解执行模式并不是为了背内部名词，而是为了形成一个工程判断：哪些代码值得等待 JIT 变好，哪些代码即使跑得久也未必能变好。

2.2 Profile、计数器与去优化为何决定优化质量

JIT 不是盲编译，它依赖运行时 profile。所谓热点，不只是“调用次数高”，还包括某个调用点通常看到哪些接收者类型、某个分支通常走哪一边、某个循环边界是否稳定、某个分配对象是否可能逃逸到方法外部。编译器正是依据这些概率信息，才敢做内联、去虚化、逃逸分析和某些循环优化。于是同一段代码在不同流量、不同租户分布、不同配置开关和不同类加载时机下，得到的机器码可能并不相同。

去优化则是这套系统保持正确性的安全阀。编译器会在优化代码边上埋下假设，例如“这个调用点大多数时候只看到某一种实现”“这个类层级在当前运行阶段不会突然出现新的热实现”“这个对象不会逃逸”。一旦这些假设被打破，JVM 可以把执行退回到更保守的状态，再继续收集证据并决定是否重新编译。去优化不是失败本身，它是动态优化体系能成立的前提。真正的问题是去优化发生得过于频繁，形成去优化风暴，让编译预算不断被浪费在不稳定热点上。

这也是为什么固定阈值迷信危险。就算某个版本里确实存在某个默认阈值，它也只是运行时策略的一部分，不自动等于“达到这个数字就能稳定获得某种收益”。编译队列长度、编译线程竞争、代码缓存压力、容器 CPU 限制和类加载节奏都可能改变编译时机。生产环境讨论 JIT 时，比“阈值是多少”更重要的问题是：“当前 VM 在什么证据下把哪些代码视为值得优化”“这些证据是否稳定”“去优化是否正在吞噬收益”。

2.3 代码缓存与编译线程是经常被忽略的运行时预算

很多人把 JIT 只理解成“编译器更聪明”，却忘了编译后的机器码要落在代码缓存里，而编译本身也要消耗 CPU。代码缓存不是无限空间，编译线程也不是白拿的资源。对于 CPU 配额紧张的容器服务来说，编译线程和业务线程争抢的是同一份 cgroup 配额；当发布后短时间内需要加载大量类、初始化大量框架组件并形成多个热点时，编译器很容易与业务线程一起把节点推向高负载。如果这时再碰上代码缓存配置保守、类路径臃肿或方法体过大，编译收益可能还没显现，预热抖动已经先把 P99 打坏了。

代码缓存压力还会改变系统行为。编译后的热点机器码越多、内联越激进、投机越复杂，消耗的代码缓存也越多。当代码缓存接近压力边界时，JVM 可能需要更积极地管理编译产物，某些新热点得不到及时编译，甚至在极端情况下出现“明明业务跑了很久，却再也没有新的热点进入高优化层级”的现象。对长期运行服务来说，这种问题的危害不在于一次崩溃，而在于性能慢慢恶化又很难通过常规业务指标直接定位。

从架构判断上说，任何讨论“增加编译线程”“扩大代码缓存”“提高或降低阈值”的方案，都必须先回答两个问题：第一，当前是不是确实存在编译预算不足或代码缓存压力；第二，额外预算会不会从别的地方偷走成本。例如，在 CPU 已经被业务线程吃满的节点上增加编译线程，可能只会让争抢更严重；在一个短生命周期函数里扩大代码缓存，则很可能几乎没有收益。编译相关参数不是禁忌，但它们必须建立在运行时预算可见的前提上。

容器环境会把这件事进一步复杂化。传统裸机或虚机时代，编译线程增加的代价往往主要体现在本机 CPU 占用；到了 cgroup 世界，编译线程一旦遇上严格限额，它们不仅会和业务线程竞争，还会因为内核调度节奏改变而把“预热段”拉得更碎。于是某些在本地开发机上看起来平滑的优化路径，到了生产容器里会变成更锯齿化的延迟曲线。团队如果只在非限额环境里验证编译参数，再把结论原样搬到 Kubernetes 上，常常会得到完全相反的体验。

2.4 先看当前 VM，再谈任何阈值和 flag

场景：你怀疑服务的预热曲线与分层编译、代码缓存或编译线程有关，需要先确认当前 JVM 实际启用了哪些 flag。
原因：同一个参数名在不同 JDK、发行商或构建里可能默认值不同、可见性不同，甚至根本不存在。
观察点：先记录 TieredCompilation、TieredStopAtLevel、CompileThreshold、Tier*Threshold、CICompilerCount、ReservedCodeCacheSize 等实际输出，而不是引用外部博客数字。
生产边界：这一步只用于建立事实基线，不等于你应该立刻覆写这些参数；改动前仍要结合 JFR、压测和回滚方案。

java -XX:+PrintFlagsFinal -version \
  | grep -E "Tiered|CompileThreshold|Tier[0-9]|CICompilerCount|CodeCache"

上面这类命令的工程意义，并不在于让人记住具体输出，而在于建立一种纪律：任何性能讨论都应该从当前 VM 身份开始。尤其在跨团队协作时，这一点格外关键。平台团队可能统一升级了基础镜像中的 JDK，小组仍在引用旧版本经验；某些发行商对 LTS 版本做了自己的 backport 或默认值调整，业务团队却拿社区构建的文档直接套用；GraalVM、Oracle JDK、Temurin、Corretto 和容器内启动器脚本又可能叠加出完全不同的实况。如果缺少这一步，后面的所有分析都可能是在错误上下文中进行。

这一章的结论是：JVM 的执行模式是一套带预算、带时间维度、带回退机制的动态系统。解释器、C1、C2、OSR、去优化、代码缓存和编译线程共同构成了“为什么同一段 Java 代码在不同阶段表现不一样”的底层原因。下一章继续回答一个更直接的问题：既然 JIT 这么复杂，它究竟真正优化了什么，为什么这些优化有时会看见，有时又像从来没有发生过。

2.5 为什么预热曲线本身就是架构指标

很多团队把预热曲线当成一个“实现细节”，认为只要服务最终能稳定下来，它在前几分钟表现得多差都无所谓。这种看法在现代弹性基础设施里越来越站不住。自动扩缩容、滚动发布、分区重调度、故障切流和按需拉起实例，都意味着系统不断在“新实例刚起来”的状态里运行。于是，预热曲线不再只是 JVM 的内部现象，而成为平台级架构指标：它影响 SLA、影响扩容有效性、影响节点资源回收策略，也影响发布和回滚节奏。

从这个角度看，JIT 与 AOT 的讨论就自然从“谁的理论峰值高”转向“实例生命周期是否足够长、预热成本是否可被业务接受”。某些服务实例一次会活数天甚至数周，这类服务完全有理由接受较长预热来换稳态收益；另一些服务则频繁按需启动、很少长时间停留在稳态，那预热成本就会被不断重复支付。架构师如果没有把实例生命周期纳入设计，只盯着单机基准，很容易把对长寿命服务成立的结论套到短寿命服务上，或者反过来把冷启动敏感服务的需求强加给全部系统。

预热曲线还是连接“技术决策”和“平台策略”的桥。某次预热抖动如果主要来自编译与类加载密集发生，平台可以通过预热探针、延迟进流和分批扩容缓解；如果主要来自框架初始化和外部依赖建立，则应把精力转向连接池、缓存和配置加载策略；如果是 Native Image 形态显著缩短冷启动，但组织又无法接受其维护成本，那也许最优解根本不是换形态，而是改进实例预热和调度策略。把预热曲线视作架构指标，恰恰能帮助团队避免把所有问题都压缩成“是不是该换编译技术”。

3. JIT 能优化什么

本章回答的问题是：JIT 的价值到底体现在哪些优化上，而不是笼统地说“它会让代码变快”。读完这一章，读者应该能理解内联、去虚化、逃逸分析、标量替换、锁消除和循环优化各自改变了什么成本结构，并据此判断哪些代码形态更可能受益。生产边界是：这些优化都是“在某些前提满足时可能发生”，不是 Java 语言层的固定承诺。常见失败模式是把某个局部优化想成必然发生，或者把“写成这样理论上可优化”误写成“线上已经优化成功”。

3.1 内联首先改变的是调用边界，而不是几条指令

方法内联通常被介绍为“去掉调用开销”，但对架构师更重要的理解是：内联真正释放的价值，不在于少一次 call/return，而在于把原本分散的控制流和数据依赖拉进同一优化视野。一旦调用边界被移除，编译器才更容易继续做常量传播、分支折叠、范围检查消除、对象分配消除和死代码删除。因此，一个本来看似“只是把 getter/setter 内联了”的变化，实际可能连带影响整条热点调用链的形状。

内联能否发生，取决于多种条件。方法大小太大、调用点类型太不稳定、异常路径太复杂、递归层次过深、代码缓存预算太紧，都可能让编译器保守下来。工程上最常见的误判，是把“方法很短”直接等于“必然内联”。事实上，短只是必要条件之一，不是充分条件。一个短小但高度多态的调用点，可能比一个稍大的单态调用点更难拿到稳定收益。框架层的代理、装饰器、拦截器和大量接口分发，也会让调用路径的可预测性变差，从而让编译器更难把关键业务逻辑压平。

因此，内联优化的真正架构含义，是鼓励我们识别“热点调用链是否足够稳定”。如果业务关键路径被过多动态分派包裹，JIT 可能很难跨越这些边界产生更大收益；如果某个服务在功能上高度模块化，但热点请求永远只走其中一条固定分支，那合理的结构分层仍可能与高质量内联并不冲突。性能设计的目标不是把代码写成单体巨函数，而是让真正的热点路径在保持可维护性的同时，对编译器来说足够可预测。

3.2 去虚化依赖的是类型稳定性，不是接口数量少

很多 Java 团队对“接口会拖慢性能”有一种过度简化的担忧。更准确的说法是：接口和虚方法本身不是问题，问题在于某个热点调用点在运行时看到的接收者类型是否稳定。去虚化的关键，不是你声明了几个接口，而是实际流量是否使某个调用点长期保持单态、双态或少数几种稳定类型。一旦 profile 显示绝大多数请求都落在少数实现上，编译器就更有机会为这些实现生成特化路径，并在必要时用 guard 保护假设。

这也是为什么同一段面向接口的代码，在两个系统里可能呈现完全不同的性能表现。一个插件化平台如果在同一热点路径上真有大量实现轮流出现，那么去虚化空间自然有限；但一个分层清晰的业务系统即便大量使用接口，只要在关键请求里真正被调用的实现很稳定，JIT 仍可能拿到不错的优化质量。换言之，面向抽象与性能并不是天然矛盾，真正的张力来自“运行时类型分布是否可预测”。

去虚化失败时，常见表象是热点调用链怎么都压不平，CPU 时间分散在许多看似很短的小方法上，JITWatch 或内联日志里频繁出现类型相关的拒绝原因。此时最正确的动作不一定是“去掉接口”，而是先理解为什么类型分布不稳定：是多租户流量差异、是特性开关、是代理层插入了额外包装、还是业务逻辑把不该放在热点路径上的扩展点放进了核心循环。只有先看清变化来源，后面的重构才不会演化成无意义的“为性能牺牲结构”。

3.3 逃逸分析改变的是分配与同步成本的边界

逃逸分析经常被误说成“对象会被放到栈上”，但更准确的工程理解是：编译器在证明一个对象不会逃出当前可分析边界后，就可以尝试消除或拆解这次分配带来的成本。最直接的收益可能是标量替换，也就是对象字段被拆成若干标量值参与后续优化；另一种收益是同步相关成本下降，例如某个只在局部作用域内可见的锁对象，可能不再需要维持原本那套同步开销。这里重要的不是术语，而是边界：只要对象逃到了集合、字段、未知调用、反射路径、跨线程发布路径或复杂异常路径，优化空间就会迅速缩小。

对业务代码而言，这条规则意味着两件事。第一，不必要的临时对象如果只在热点方法内部参与计算，并且其结果最终被拆成简单标量使用，那么 JIT 也许有机会消除不少分配成本；第二，代码一旦把这些对象交给更大范围的生命周期管理，比如缓存、异步队列、日志结构或跨层上下文，编译器就很难再帮你抹掉这些成本。因此，在高频核心路径中区分“局部计算对象”和“跨边界状态对象”是有价值的。前者应尽量让数据流简单透明，后者则应更强调正确性、语义清晰和生命周期可见。

这也解释了为什么很多“我把对象都写成小 record 了，为什么还是没变快”的经验并不神秘。JIT 并不会因为类型长得优雅就自动消除分配，它只会根据真实逃逸路径做判断。把高频对象传给日志、埋点、集合、异常包装或异步回调，就等于告诉编译器：这个对象已经超出了局部分析边界。工程上真正可操作的思路，不是迷信某种语法，而是先识别热点路径里的对象是否本来就不该跨越边界。

3.4 循环优化、范围检查消除与热点稳定性有关

循环优化常被拿来做 microbenchmark 演示，因为它能在很小的代码片段里展示巨大差异。但从生产视角看，循环优化的意义在于：一旦编译器能证明循环边界稳定、数组访问安全、分支结构简单、异常路径可控，它就可以减少每次迭代都重复做的防御性检查，把更多预算投入在真正的计算上。范围检查消除、循环展开、某些不变量外提和局部向量化机会，都属于这一类收益。

不过，循环优化的成立条件往往比示例里更苛刻。真实业务循环里经常混入边界判断、日志、可空校验、异常兜底、调用下游对象方法、特性分支甚至并发可见性要求。一旦循环体同时承担了“业务计算”和“流程控制”两种职责，JIT 就未必还能像示例那样顺利把关键路径压缩到极致。这也是为什么工程上更应该关注“热点循环是否承担了太多非计算职责”，而不是盲目追求“让编译器自动搞定”。

对团队来说，这种理解能避免两种极端。第一种极端是把一切循环代码都写成不易维护的手工优化风格，结果业务正确性和可读性先崩掉；第二种极端是完全不关心热点循环里掺杂了多少额外逻辑，最后把本来可以清晰分层的数据处理路径写成了混合控制流。JIT 的长处，是在合理结构上继续放大收益，而不是替我们修复结构本身的混乱。

3.5 JIT 优化是条件性收益，不是语言承诺

把前面几类优化放在一起看，就会发现一个共同特征：它们都依赖条件。内联依赖调用点稳定性和方法预算；去虚化依赖类型 profile；逃逸分析依赖对象边界；循环优化依赖控制流和边界条件；锁消除依赖同步对象的可分析性。于是，JIT 的核心价值就不应被表述成“Java 最终会自动很快”，而应被表述成“如果运行时收集到足够稳定的证据，JIT 有机会把热点路径重写成更适合当前 workload 的机器码”。

这一定义非常重要，因为它天然把“有没有发生优化”变成了一个可验证问题，而不是信仰问题。团队可以通过 JFR、内联日志、JITWatch、采样 profile 和对照 benchmark 去确认优化是否真的出现，而不是依赖语言层想象。只要沿着这个思路走，后续遇到“为什么优化没发生”时，问题就会自然转向类型稳定性、热点形状、类加载时机、代码缓存预算和运行时噪音这些具体因素。下一章正是要回答这个问题：明明我们知道 JIT 能做这么多事，为什么线上看起来常常像什么都没发生，甚至越调越差。

从团队协作角度看，这种“条件性收益”认识还有一个额外价值：它能防止工程师把性能结果归因到个人偏好上。只要大家都接受“JIT 收益要看证据、看条件、看 workload”，讨论就会自然从“我觉得某种写法快”转向“当前运行时是否具备这种写法获利的前提”。这会明显降低组织里的性能迷信。毕竟绝大多数高代价性能事故，都不是因为某个成员不够聪明，而是因为团队太早把条件性经验升级成了普遍真理。

3.6 热点友好不等于“为了优化牺牲设计”

谈 JIT 优化时，团队很容易滑向一个危险倾向：为了让热点更友好，就尝试用更少抽象、更少分层、更少中间对象来换性能。这个方向如果没有边界，很快会把代码演化成难以维护的“半手工优化风格”。因此，有必要明确一个原则：热点友好并不要求放弃设计，而是要求把真正的热点和非热点分开治理。热点路径应尽量减少偶然复杂性，非热点路径则应优先保持业务语义和可维护性。不是所有代码都值得为编译器做形状优化。

真正成熟的做法，是先通过证据确认热点，再围绕热点做有限重构。例如，把高频计算从控制流与日志层中抽出，让核心逻辑更稳定；把多租户差异前置到热点外层，让内层路径类型分布更可预测；把必需的扩展点从最热循环中移出，改成热路径外的一次性选择。这样做不是牺牲架构，而是让架构在“业务边界清晰”和“运行时可优化”之间形成更好的配合。

反过来，如果团队在没有热点证据时就全局推广某种“JIT 友好编码规范”，通常收益极低。它既可能伤害可读性，也可能让开发者误以为只要照某种风格写，编译器就会自动兜底。性能设计真正稀缺的不是技巧，而是边界感：知道哪里值得为性能付出结构成本，哪里不值得。这种边界感比任何单一技巧都更能决定长期结果。

4. 优化为什么失效

本章回答的问题是：一项在理论上看起来合理的 JIT 优化，为何在真实服务里经常不生效、收益不足，甚至伴随新的波动。读完这一章，读者应该能从类型分布、代码形态、编译预算、运行环境和误判路径几个方向解释“优化落空”的原因。生产边界是：失效往往不是编译器“坏了”，而是前提不存在或前提在运行中不断变化。常见失败模式是看到收益不明显，就一口咬定 JVM 不行，或者反过来一味继续加参数却不检查根因。

4.1 类型分布、类加载与去优化风暴

最典型的失效原因，是运行时证据不稳定。某个调用点在测试环境里可能几乎总是看到一种实现，到了生产却因为租户特性、插件装配、灰度代码路径或动态类加载而出现更多接收者类型。此时编译器之前基于单态或双态假设生成的优化路径，可能需要频繁退回更保守状态，再重新收集 profile。去优化本身不可怕，可怕的是热点长期处于“刚优化一点就被打破，再回去重来”的状态。对业务表现来说，这往往体现为预热始终不稳定、尾延迟偶发尖刺、编译线程持续活跃但稳态吞吐不明显改善。

这类问题在框架化系统里并不少见。大量动态代理、AOP 包装、运行期生成类、脚本引擎、表达式语言和可插拔扩展点，都可能让热点调用图在生产中比开发预期复杂得多。团队如果不先看到这一层，而是单纯调整阈值或暴力加大内联预算，往往只能让代码缓存压力更大、编译时间更长，却无法真正稳定住 profile。架构上更有效的做法通常是：识别核心热点是否被不必要的扩展点包裹，必要时把高变化部分从最热路径中拆走，或者把真正的业务分派前置，让热点内层的类型形状更稳定。

4.2 代码结构本身会限制编译器视野

第二类失效原因来自代码结构。JIT 可以在合理结构上做很多事，但它并不能自动穿透所有复杂性。巨大的方法体、深层嵌套分支、异常驱动控制流、频繁的反射访问、动态代理层层包裹、热点路径里插满调试日志和埋点、关键循环里混入 I/O 和锁操作，这些都会降低编译器形成清晰优化图的机会。很多时候，我们以为自己在优化编译器，其实真正该优化的是“热点路径承担了太多不属于它的职责”。

这种限制并不意味着要为了性能牺牲可维护性，而是提醒团队：结构分层和热点收敛应该同时考虑。比如一个服务可以在外层保留足够清晰的业务编排，在最内层的高频计算路径中尽量保持类型稳定、分支简单和副作用可见。相反，如果把所有横切逻辑都强行塞进最热的方法里，再希望编译器替我们恢复秩序，常常只会失望。JIT 擅长的是在已有秩序上做局部重写，而不是从混乱中凭空重建架构。

这类失效在“架构正确、实现随时间变形”的项目里尤其常见。系统最初可能是一个很清晰的领域服务，后来为了兼容更多租户、灰度功能、实验开关、日志策略和埋点要求，热点路径被不断加层。每一层单独看都合理，但叠在一起后，编译器再也看不到一条稳定简洁的核心链路。团队如果只从单个 PR 审视代码，很难意识到这种长期堆积；而性能问题恰恰是最容易把这种结构债务暴露出来的地方。因此，JIT 失效有时其实是在提醒团队：系统的热点路径已经不再保持“可被编译器理解”的形状。

4.3 编译预算、代码缓存与容器 CPU 配额会吞掉理论收益

就算代码形态不错，优化仍可能因为预算不够而效果有限。编译需要 CPU，编译后的代码需要代码缓存，profile 收集也会引入额外运行时活动。在容器化环境里，CPU 配额不足时，编译器和业务线程会直接竞争。如果节点在发布后同时承担类加载、连接建立、缓存预热和热点形成，JIT 的好处可能来得及出现，也可能在预算挤压下变成一段额外抖动。此时团队如果只盯着方法级别优化，忽略了容器配额与发布形态，往往会得出错误结论。

代码缓存也是类似逻辑。某些“加大内联”“提高编译层级”的建议，在实验室单机上可能有效，但在微服务集群里如果每个实例生命周期不长、类路径又臃肿、热点还高度不稳定，增加编译预算很可能只是换来更多初期波动。生产优化必须把运行时预算和实例生命周期一起考虑：这个实例会活多久，值得投入多少编译成本，代码缓存扩大会不会挤压别的内存预算，更多编译线程会不会让冷启动段更难看。这些问题没有统一答案，但如果不问，就几乎必然走错。

4.4 把 GC、I/O、锁竞争或业务外因误判成 JIT 问题

还有一类失效其实不属于“JIT 失效”，而属于“我们根本看错了对象”。举例来说，某次吞吐下降可能主要来自数据库池耗尽；某次 P99 尖刺可能来自大对象分配触发的 GC；某段 CPU 走高可能来自 JSON 序列化或压缩；某个启动慢问题可能主要来自类路径扫描或配置中心重试。因为 JIT/AOT 话题天然吸引注意力，团队很容易在没有采样证据前就把原因放在编译器身上。这样一来，即使后来加了更多编译日志，也只是围着错误问题越走越深。

更危险的是，误判不仅浪费时间，还会制造次生问题。例如把数据库慢查询误判为“JIT 没热起来”，然后提高编译线程和阈值设置，结果只是让启动期 CPU 更紧；把容器内 RSS 上升误判为“堆太大”，于是缩小堆并切换镜像形态，却让 GC 频率和尾延迟变得更差。正确的排障顺序，永远是先区分“这是 Java 运行时内部导致的”还是“这是系统外部或业务逻辑导致的”，再决定是否进入 JIT/AOT 这条分析线。

这一章的结论是：优化失效并不神秘，它通常意味着前提不稳定、结构不友好、预算不够，或者根因根本不在编译器。只有承认 JIT 是条件性收益，团队才会愿意把注意力转向 profile 稳定性、容器预算、调用图形状和根因归属。下一章继续回答一个更难的决策问题：当 HotSpot、Graal、JVMCI、Native Image 和 PGO 都摆在桌上时，哪些边界必须被先看清，才能避免“听起来都对、上线后都疼”。

5. Graal、JVMCI、Native Image 与 PGO 的边界

本章回答的问题是：Graal、JVMCI、Native Image 和 PGO 分别解决什么问题，以及哪些结论绝不能被过度泛化。读完这一章，读者应该能把这些技术放回各自的运行边界、部署边界和验证边界中，而不是把它们当成统一的“更先进编译技术”。生产边界是：是否采用 Graal 或 AOT，永远取决于目标指标、依赖生态、动态行为、运维能力和验证成本。常见失败模式是把 Graal 当成所有 HotSpot 问题的升级包，或者把 Native Image 当成所有云原生问题的标准答案。

5.1 Graal 与 JVMCI 改变的是编译器实现和可优化空间

讨论 Graal 时，第一步要分清它是“一个编译器实现”、还是“一个发行版能力集合”、还是“Native Image 的前端生态”。不少团队把这几个层次混成一句“Graal 更快”，这在工程上几乎没有信息量。更准确的理解是：Graal 作为编译器实现，在某些工作负载、某些优化模式和某些工具链整合上，可能与 C2 呈现不同的收益与成本曲线；JVMCI 则提供了让 JVM 与编译器实现交互的接口与运行框架；它们共同带来的，不是抽象的“新技术红利”，而是另一组编译决策空间与运维验证要求。

从架构视角看，采用 Graal JIT 不是简单切一个开关，而是引入一条新的运行时假设链。团队要重新确认当前发行版对 JVMCI 的支持状态、目标 JDK 版本的兼容范围、诊断工具可见性、容器镜像选择、构建与发布流程以及对现有性能基线的影响。某些计算密集、类型丰富、热点稳定的服务可能确实从中获益；但如果团队连现有 HotSpot 基线都没有测清，直接上 Graal 往往只是把未知从一个黑盒换到另一个黑盒。编译器选择本质上是运行时策略选择，而不是品牌偏好。

5.2 Native Image 的价值在部署形态，不只是在“更快”

Native Image 最常被称赞的，是启动更快、常驻内存更低、部署更接近单个二进制。但这些表述如果没有边界，同样会误导。它真正的价值，在于把应用运行时需要的大量动态行为提前到构建期处理，从而减少启动阶段的类加载、即时编译和部分运行时管理成本。换来的代价是闭世界假设更强：反射、资源、动态代理、JNI、本地库、类初始化时机、脚本引擎和运行时插件行为，都必须提前被说明或重新设计。也就是说，Native Image 优化的不只是执行路径，更是部署形态和运行时自由度之间的交易。

这笔交易对哪些系统更划算，取决于系统生命周期和组织目标。CLI 工具、短生命周期批处理、冷启动敏感函数、边缘节点服务和资源极度受限的组件，往往更有理由考虑 AOT，因为它们对启动时间和常驻开销比对长时动态优化更敏感。相反，长期运行、高度动态、依赖丰富、需要成熟运行时诊断和灵活类加载的服务，则要更加谨慎。很多服务切到 Native Image 后，启动指标确实好看了，但构建复杂度、运行时兼容、元数据维护和线上故障定位难度也一起上升。如果组织没有准备好承担这部分运维成本，AOT 的收益可能很快被抵消。

5.3 反射、资源、类初始化与本地依赖决定 AOT 难度

团队评估 AOT 时，真正要看的不是“能不能编过”，而是“编过以后是否仍然稳定、可维护、可升级”。最大的不确定项通常集中在四类边界。第一类是反射与动态代理，尤其在框架深度依赖它们时，闭世界分析需要显式元数据。第二类是资源与配置文件，包括国际化资源、模板、证书、SQL、字体和 SPI 文件，它们在 JVM 世界里往往默认可见，在原生镜像里却必须显式纳入。第三类是类初始化时机：某些类如果在构建期初始化，会把时间、环境变量、文件系统状态甚至连接器状态提前冻结；而放在运行时初始化，又可能拉长启动路径。第四类是 JNI 和本地库：它们既影响镜像大小，也影响运行平台和发布方式。

场景：你在评估某个 Spring Boot 或基础设施服务是否适合切到 Native Image，需要先验证构建期和运行期初始化边界。
原因：大量原生镜像故障不是“性能不够”，而是某个应当运行时初始化的组件被错误冻结，或者某个反射/资源元数据根本没有被纳入镜像。
观察点：优先记录构建是否需要补充 reflection/resource/proxy metadata，哪些类必须 initialize-at-run-time，以及启动后第一批请求是否仍出现功能性差异。
生产边界：下面的命令只是说明典型边界控制方式，真实项目要以锁定插件、框架版本和构建脚本为准，并配合回归测试。

native-image \
  --initialize-at-run-time=com.example.runtime \
  --initialize-at-build-time=com.example.constants \
  -H:ReflectionConfigurationFiles=reflect-config.json \
  -jar app.jar

真正的工程难点，是这些边界会随着依赖升级而变化。一个今天可用的 metadata 组合，在下次 Spring、Netty、数据库驱动或安全库升级后可能就需要重新审视。也正因为如此，AOT 决策不能只看第一次构建是否成功，而要把“长期维护这个镜像形态的组织成本”一起算进去。技术层面可行，不等于组织层面值得。

5.4 PGO 只有在 profile 代表真实 workload 时才成立

PGO 最容易被误解成“再多做一步编译，就能自动更强”。实际上，它只是把样本运行中的分支、热点和布局证据喂回编译阶段，让编译器更有机会对这些已观察模式做进一步优化。于是，PGO 的价值直接取决于样本质量。如果训练流量只覆盖启动路径、只覆盖 happy path、只覆盖低并发、只覆盖单租户或单类输入，它所塑造的最优二进制，很可能与生产真实流量并不一致。对高波动系统来说，错误 PGO 比没有 PGO 更危险，因为它把错误假设固化得更早。

因此，PGO 是一项高级优化，而不是默认步骤。团队如果连服务级 benchmark、稳态指标、回滚机制和误差窗口都还没建立，就不应该太早把精力投向 PGO。更合理的顺序通常是：先拿到正确的症状定义和工具证据，确认热点和瓶颈确实主要来自可被编译器影响的部分，再评估是否值得通过 PGO 进一步压榨收益。否则，团队容易陷入“训练一轮 profile、得到一份更快结果、于是相信已经理解系统”的错觉。

对组织来说，PGO 还有一个容易被忽视的维护问题：它会把“性能验证”从一次实验升级成持续资产管理。因为 workload 会变、租户结构会变、功能会变、依赖会变，今天代表性的 profile 在几个月后可能就不再代表真实流量。于是团队必须建立 profile 更新节奏、回归验证窗口和版本归档能力。没有这些配套流程，PGO 不是帮助组织积累性能能力，而是在系统里埋下一份随着时间老化的隐形配置。

5.5 真正的边界问题是“优化目标是什么”

HotSpot 默认 JIT、Graal JIT、Native Image 和 PGO 并不是一条从低级到高级的升级链，而是围绕不同目标函数展开的不同组合。目标函数如果是长时稳态吞吐，JIT 常常更有空间；如果是冷启动和常驻开销，AOT 更有吸引力；如果是特定热点结构的编译质量，Graal 可能值得实验；如果是把某个已稳定 workload 再往前挤一点，PGO 才可能有意义。把这些技术混成“谁更先进”，就等于跳过了最关键的决策前提。

这一章的结论是：Graal、JVMCI、Native Image 和 PGO 都有价值，但它们的价值必须在目标、依赖、动态性、维护成本和验证能力共同约束下理解。只有先划清边界，后面的诊断工具链和生产故障路径才不会把技术选型变成信仰冲突。下一章将回到工具层面：面对真实线上问题，究竟应该按什么顺序使用 JFR、PrintCompilation、JITWatch、async-profiler 和相关命令，才能最快把证据变成可执行判断。

5.6 选型前的组织级检查清单

在很多组织里，技术选型讨论只发生在开发小组内部，最后却由平台、运维、SRE、安全和发布团队共同承担后果。JIT/AOT 决策尤其如此，因为它们不仅改变应用运行方式，还改变构建、诊断、回滚和知识结构。因此在进入大规模试验前，架构师至少应主动回答几类组织问题：谁维护 JDK 发行线和镜像基线，谁维护 Native Image metadata，谁负责 PGO 样本更新，谁有权限在生产打开 JFR 或采样，谁负责解释 benchmark 结果，谁来制定功能等价和回滚门槛。

如果这些问题没有答案，再好的技术试验也很难持续。因为试验一旦离开最初的发起人，组织就会发现：原来没有人真正拥有这条技术路线。短期看它可能只是一个维护成本问题，长期看它会直接影响团队是否敢继续升级 JDK、框架或镜像形态。很多“技术本身没问题、最后却没推广”的案例，本质上就是组织责任没提前定义。

因此，选型前的清单不应只有“性能能不能赢”，还应包括“维护谁负责、故障谁定位、升级谁验证、回滚谁执行、知识谁沉淀”。只有当这些组织边界明确时，JIT/AOT 相关技术才算真正进入了可运营状态。否则它们始终只是局部实验能力，而不是可复制的平台能力。

6. 诊断工具链

本章回答的问题是：面对 JIT/AOT 相关性能问题，工具应该如何排序使用，而不是遇到一个症状就把所有日志一起打开。读完这一章，读者应该能把 JFR、PrintCompilation、PrintInlining、JITWatch、async-profiler、jcmd 和 JMH 放到各自最合适的位置，知道它们分别回答什么问题、不能回答什么问题。生产边界是：不是所有工具都适合直接在生产全量打开，尤其 verbose 日志和构建期 instrumentation 要根据环境风险控制。常见失败模式是先开最吵的日志、拿到最多但最难解释的输出，最后反而无法形成判断。

6.1 JFR 应该是大多数生产诊断的第一站

在生产环境里，JFR 最大的价值不是“功能多”，而是它能以相对统一的方式把编译、分配、锁、GC、线程和异常等关键信号放进同一时间轴。对排查 JIT/AOT 决策来说，这意味着团队可以同时回答几个关键问题：热点方法何时开始编译，编译是否集中在某个预热窗口，内联是否大量失败，是否存在去优化事件，CPU 抬升时是否伴随分配风暴或锁竞争，尾延迟尖刺是否与 GC、编译或外部依赖同频。只要这些问题能在一份记录里被初步回答，很多“是不是 JIT 的锅”的争论就会自然消失。

JFR 之所以适合作为第一站，还因为它天然鼓励团队按时间片看问题。JIT 相关故障很少是“永远都慢”，更常见的是“发布后前两分钟慢”“扩容后的新实例慢”“热点切换后出现抖动”“某次租户流量切换后 profile 失真”。如果工程师只看一段静态方法统计，就难以把症状与阶段联系起来；JFR 则能帮助我们把发布事件、流量变化、编译活动和业务指标对应起来。例如同样是 P99 抖动，如果它总是在实例启动后四十秒到一百二十秒之间出现，并伴随集中编译和类加载活动，那么根因方向就与“高峰期数据库压力上来时才抖”的情况完全不同。

还有一点经常被低估：JFR 能帮助团队避免在错误阶段做高成本诊断。很多问题在 JFR 层面已经足够明确，不需要一开始就打开 PrintCompilation 或深入汇编。例如 CPU 高的根因若明显集中在 JSON 解析、压缩、签名校验或数据库驱动，团队完全没必要立刻走 JIT 深挖；反之，如果 JFR 显示编译和去优化事件恰好与业务抖动重叠，才值得进入更细粒度的编译器视角。也就是说，JFR 的作用不仅是“看见编译器”，更是“知道什么时候值得继续看编译器”。

场景：你需要在生产或准生产环境中确认启动后预热抖动是否与编译、内联、锁、分配或 GC 同步发生。
原因：只有把这些事件放在同一时间轴里，才能区分“JIT 相关抖动”和“系统其他层抖动”。
观察点：优先看编译事件、方法采样、分配热点、锁争用、GC 停顿和异常峰值在时间上的关联，而不是先看某一个方法的局部统计。
生产边界：JFR 适合作为首轮证据采集，但记录时长、事件配置和落盘路径仍要遵守生产资源与合规要求。

jcmd <pid> JFR.start \
  name=jit-aot-diagnosis \
  settings=profile \
  duration=120s \
  filename=jit-aot-diagnosis.jfr

6.2 PrintCompilation 与 PrintInlining 适合回答“为什么没编进去”

如果 JFR 已经把问题空间缩小到“某个热点方法为何迟迟不上高层级优化”或者“某个关键调用链为什么没有被压平”，那 PrintCompilation 和 PrintInlining 才开始真正发挥价值。它们最适合回答的，不是“系统总体为什么慢”，而是“编译器对这条特定路径做了哪些决定、拒绝了哪些决定”。例如，某个服务的吞吐迟迟起不来，JFR 显示 CPU 主要花在大量细碎方法调用上，那么团队就可以进一步查看关键方法是否被编译、在哪个层级被编译、内联是否因为方法过大、类型不稳定、递归深度或代码缓存预算而失败。

但这类工具之所以要放在 JFR 之后，也是因为它们输出噪音极大。没有问题定位前直接把全量编译日志拉满，常常只会得到上千行很难关联业务时间轴的文本。更糟的是，一些团队会在生产环境长期保留这些输出，以为“有日志就更可追踪”；实际上这往往只会带来 I/O 噪音、存储压力和分析疲劳。正确姿势是：先确定要问的问题，再用编译日志去回答那一个问题，而不是让日志本身成为新的问题。

另一个值得强调的边界是：PrintInlining 展示的是编译器决策视角，不是业务语义视角。它会告诉你某个方法为什么没被内联，但它不会告诉你“应该为了内联而修改架构”还是“这条路径本来就不值得继续优化”。这需要工程师把日志与服务价值联系起来。如果一个内联失败发生在非核心路径，或者只影响一个很少触发的管理接口，那么继续沿这条路径深挖就很可能是过度优化；相反，如果失败正好落在核心热点并且稳定影响吞吐与延迟，那才值得把它提升为架构讨论。

场景：你已经用 JFR 或采样证据确认某条热点调用链是性能关键路径，想知道关键方法是否被编译、内联或拒绝内联。
原因：只有在热点路径已被确认后，编译日志才能有效回答“为什么这条路径没有按预期优化”。
观察点：关注关键方法的编译层级、编译时机、内联成功与拒绝原因，以及这些信息是否与预热窗口和业务抖动重合。
生产边界：这类日志通常更适合复现场景、灰度环境或短时间受控采集，不应作为默认长期生产配置。

java -XX:+UnlockDiagnosticVMOptions \
  -XX:+PrintCompilation \
  -XX:+PrintInlining \
  -jar app.jar

6.3 JITWatch 的意义在于把编译决策还原成代码上下文

JITWatch 对很多架构师真正有价值的地方，不是它能展示更多内部术语，而是它能把源代码、字节码和编译日志放回同一个上下文里。当团队已经知道“某个调用链没有获得预期优化”，下一步最困难的通常不是继续收集更多日志，而是把这些编译器视角的拒绝原因映射回可维护的代码结构。JITWatch 在这个阶段特别有用，因为它可以帮助团队看到：哪些调用点被认为过于多态，哪些方法体过大，哪些分支路径让编译器不断放弃进一步优化。

这类工具特别适合用于评审“我们究竟该改代码，还是该停止优化”。如果 JITWatch 告诉你某个热点无法被很好优化的核心原因，是业务设计上存在必要的动态扩展点，那也许最合理的结论不是重写这段架构，而是接受这部分性能成本并把优化精力投向别处。反过来，如果它显示热点路径里充满了偶然复杂性，比如多余包装层、冗余对象桥接、无意义的中间分发，那么这就是重构有望带来真实收益的信号。JITWatch 的最大价值，不是证明编译器聪明，而是帮助团队分清“哪些复杂性是业务必需的，哪些只是历史累积”。

它还有一个组织层面的价值：便于复盘和传播。相比直接分享一段冗长的编译日志，JITWatch 更容易把“问题在哪、为什么这样、有没有必要改”讲给并不熟悉 HotSpot 内部实现的开发者听。这样性能优化就不再只是少数 JVM 专家的私有知识，而能变成团队可复查、可复盘、可再用的经验。对内容型知识库和企业技术沉淀来说，这一点甚至比单次性能收益更重要。

6.4 async-profiler 回答的是“时间花在哪里”，不是“为什么没编”

async-profiler 常被和 JIT 话题一起提起，但它回答的问题与编译日志不同。它最擅长的是告诉你 CPU、wall-clock、分配、锁等待等成本到底集中在哪些调用链上。换句话说，它告诉你“哪里热”，而不是直接告诉你“为什么这里没被优化”。因此，它特别适合作为 JFR 之后、编译日志之前或并行的验证手段：先用采样看到真正的热点是否在你怀疑的地方，再决定是否需要更细的编译器证据。

这点非常关键，因为很多团队会过早假定瓶颈在某个理论上“适合 JIT 优化”的代码片段上，而 async-profiler 往往一出图就发现最大火焰其实在别处。例如某次所谓“JIT 没优化好”的投诉，最后可能只是因为序列化库的 UTF-8 编码路径、数据库驱动的结果集转换或日志框架的 MDC 处理占了大头。此时再研究内联与逃逸分析，只会离答案越来越远。采样工具的职责，就是帮你在进入编译器细节前先确认热点地图。

场景：你已经确认问题主要表现为 CPU 高、吞吐低或尾延迟异常，需要知道真实热点和等待链是否落在你怀疑的调用路径上。
原因：如果连热点位置都没确认，就直接分析内联或阈值，很容易围着假热点做无效优化。
观察点：先区分 CPU 热点、分配热点、锁热点与 wall-clock 等待热点，再决定要不要进入编译日志或代码重构阶段。
生产边界：采样开销通常可控，但仍应控制时长、事件类型与符号解析方式，避免在极高风险窗口长期运行。

./profiler.sh -e cpu -d 60 -f cpu.html <pid>

6.5 把工具链串起来，才能得到可执行结论

单个工具本身很少给出最终答案，真正有效的是工具链顺序。一个成熟的顺序通常是这样的：先确认运行时身份与发布上下文，再用 JFR 观察时间轴和事件耦合，再用 async-profiler 确认真正热点和等待链，只有当怀疑点足够聚焦时，再用 PrintCompilation、PrintInlining 或 JITWatch 看编译决策细节。这样做的好处，是每一步都在缩小问题空间，而不是平行堆积信息。最终团队拿到的，不是一堆互相独立的报告，而是一条可以解释业务症状的证据链。

对生产组织来说，这条顺序还有另一个收益：它天然支持分工。平台团队可以负责运行时身份、JFR 基线、容器资源和系统级采样；业务团队可以结合热点路径和业务语义判断是否值得重构；架构师则负责把这些证据转化成策略决策，比如继续保留 JIT、试验 Graal、评估 Native Image、补充 benchmark 还是直接停止过度优化。工具链真正创造的价值，不是“让每个人都懂汇编”，而是让组织能够基于同一份证据做一致决策。

这一章的结论是：JFR 负责建立时间轴，async-profiler 负责确认热点，编译日志和 JITWatch 负责解释编译决策，任何跳过前置缩小步骤直接上深度日志的做法都容易制造噪音。下一章继续把这些工具放进真实生产场景，看看启动慢、预热长、P99 抖动、CPU 高和原生镜像故障分别应该走哪条故障路径。

6.6 从问题到证据的最短路径

不少团队在性能事故里真正缺的并不是工具，而是“下一步该做什么”的决策顺序。最短路径思维的价值就在这里：每一次采集都只为排除一批假设，而不是为了“把数据收全”。例如，面对新实例预热抖动，最短路径通常不是立刻抓火焰图、编译日志、系统调用和 GC 日志全家桶，而是先确认抖动是否集中在启动后固定窗口，再用 JFR 看是否与编译或类加载同频，然后再决定是否需要细化到内联日志或热点调用链。如果第一步已经发现数据库池和远端缓存都同步抖动，那么继续深入编译器就是偏航。

这种最短路径思维还有一个好处：它会自然限制排障动作的副作用。很多深度工具虽然有价值，但采集和解释成本都不低。如果团队能先用轻量证据快速排除大方向，就能把高成本诊断留给真正需要它的案例。长期看，这会让性能治理更可持续，因为大家不会把每次问题都当成一次全面 JVM 调研项目。

对知识沉淀来说，“问题到证据的最短路径”也比“工具大全”更可复用。后来的团队成员最需要的不是一份完整工具目录，而是一条针对典型症状的可靠分流顺序。只要这种顺序被多次验证，它就会逐渐变成组织自己的性能语言，而不是一次次依赖个人经验临场发挥。

7. 生产故障路径

本章回答的问题是：在真实线上事故里，JIT/AOT 相关问题应该如何分路径排查，而不是把所有症状都揉成一个“性能不好”。读完这一章，读者应该能针对启动慢、预热长、延迟尖刺、CPU 高吞吐低和 Native Image 功能性问题选择不同入口，知道什么情况下应该停在证据层面，什么情况下才值得继续动参数或改代码。生产边界是：故障路径的目标是快速分流和缩小空间，不是一次写出最完美结论。常见失败模式是所有故障都套同一个 runbook，结果排查链越拉越长。

7.1 启动慢：先分离“框架初始化”与“编译行为”

启动慢的排查里，最危险的假设就是“既然涉及 JVM，就一定与 JIT 有关”。真正有效的做法，是先把启动路径拆成至少四段：镜像拉起与容器准备、进程启动与类加载、框架初始化与外部依赖建立、首个请求可用前后的预热。很多服务启动慢，瓶颈根本不在编译器，而在类路径扫描、Bean 装配、连接池初始化、配置中心访问、证书与 DNS 读取或容器存储层性能。只有当这些路径都相对清楚后，再去判断解释执行、初始编译和代码缓存是否真正在其中扮演关键角色。

如果问题出现在“进程已起来但业务要等很久才稳定”，那它更像预热问题，而不是纯启动问题。预热问题需要同时看 JFR 编译事件、热点形成、缓存命中和下游连接状态。很多灰度失败其实不是实例永远慢，而是新实例在接入流量的最初一两分钟里还没有形成足够稳定的热点，又同时承担了真实业务压力。此时平台层面的解决思路可能是延迟摘探针、延后进流、做实例预热或调整扩容节奏，而不是一上来就把阈值调低。也就是说，启动慢的最终方案有时根本不在代码里，而在发布与调度策略里。

7.2 预热长与 P99 抖动：先确认时间窗口，再确认事件耦合

预热长和 P99 抖动经常一起出现，但它们仍然需要更细的分辨。第一步要回答的是：抖动是否只出现在实例刚启动、类加载集中、热点刚形成的时间窗口里，还是在服务进入稳态很久以后仍然反复发生。前者更可能与编译活动、profile 稳定性、缓存预热和连接建立有关；后者则更可能指向去优化风暴、动态类加载、GC、锁竞争或外部依赖压力变化。没有这个时间窗判断，团队很容易把“短时预热波动”误判为“JIT 天生不稳定”，或者反过来把持续性稳态抖动误判为“只是还没热起来”。

第二步要看事件耦合。JFR 中的编译事件是否与 P99 尖刺重合？async-profiler 是否显示热点随时间发生明显迁移？GC 是否在同一时间窗里抬头？外部依赖如数据库、缓存或 RPC 网关是否也同步出现延迟升高？只有事件耦合关系明确后，后续动作才值得展开。如果编译与延迟尖刺明显同频，那可以继续分析热点路径和内联拒绝；如果尖刺与数据库池耗尽同频，JIT 可能只是一层噪声，而不是主因。预热和抖动之所以难，就是因为它们常常是多因素共同作用的结果。正确方法不是寻找唯一神秘参数，而是把时间维度里的因果顺序理清。

在高并发系统里，这一步还要补一个判断：抖动是每个新实例都会出现，还是只在某些实例或某些租户请求上出现。前者更偏向运行时阶段性成本，后者更偏向 workload 与代码路径不均匀。如果某些租户因为功能开关、数据体量或类型分布不同，恰好触发了更复杂的热点形状，那么同一份二进制在不同流量子集上就会呈现完全不同的 JIT 体验。没有把流量分桶，团队就会把结构性差异误写成随机抖动。

7.3 CPU 高但吞吐低：优先区分业务热、编译热、等待热

CPU 高吞吐低是最容易把团队拉向错误方向的症状之一。很多人看到 CPU 高，就会下意识觉得“说明 JIT 正在忙、热点还没优化完”；但实际情况往往复杂得多。CPU 可能花在业务热点上，也可能花在编译器线程上，还可能花在频繁异常、锁自旋、序列化、压缩、加解密、日志甚至内核态调度上。吞吐低又说明 CPU 的消耗并没有转化成有效业务产出，这时最重要的工作不是立刻优化某个方法，而是先把 CPU 消耗按来源分开。

如果 JFR 和采样结果显示 CPU 高峰主要落在编译线程，并且同时伴随发布后预热窗口、热点形成和代码缓存增长，那可以合理怀疑编译预算正在挤压业务线程；此时调度策略、实例预热和容器配额都可能比单纯调阈值更重要。如果 CPU 主要落在业务线程，但热点集中在对象分配、序列化或锁争用路径，那重点就应该转向代码结构、数据流和并发模型，而不是继续纠缠“C2 为什么没再快一点”。吞吐问题最怕把“JIT 是系统的一部分”误写成“JIT 就是系统本身”。

7.4 Native Image 故障常常先表现为功能性问题，而不是性能问题

团队切到 Native Image 后，最先遇到的问题未必是性能数字，而往往是功能边界。比如某些接口在 JVM 模式下运行正常，原生镜像下却突然少了资源文件、无法反射实例化、SPI 失效、时区或证书行为异常、字体缺失、JNI 或本地库路径不对、某个本应运行时初始化的单例被提前冻结。这类问题如果只按“性能调优”思路去看，会一直找不到答案，因为根因不在执行速度，而在构建期和运行期边界划分错误。

因此，Native Image 的故障路径与 HotSpot JIT 的故障路径有一个本质差别：前者经常要先做功能正确性排查，再谈性能收益。只有在功能边界正确、元数据完整、初始化时机合理之后，启动时间、内存和吞吐的比较才有意义。否则拿一个功能有缺口的镜像去和 JVM 服务比启动时间，本身就不构成有效证据。很多组织在这里吃亏，不是因为 Native Image 不行，而是因为把“跑起来”误当成了“运行语义等价”。

7.5 故障收敛时要给出“改什么”和“不要改什么”

生产故障路径的最终产出，不应只是问题定位说明，还应包含明确的变更边界。一个成熟的结论至少要回答四件事：第一，主根因和次根因分别是什么；第二，哪些参数或架构调整值得尝试；第三，哪些看似诱人的动作目前没有证据支持，因此不要动；第四，如何验证和回滚。没有第三条，团队很容易在事故压力下顺手做出更多无证据改动，把问题从单点扩大成系统性风险。

例如，某次预热抖动的最终结论可能是：根因是发布后新实例在 CPU 配额紧张下同时承担类加载和编译活动，业务流量切入过早；建议先调整进流策略、扩大预热窗口、保留当前 JIT 策略不变，并用后续灰度验证是否还需要微调编译线程；暂不建议立即切换 Graal 或 Native Image，因为没有证据表明部署形态是主瓶颈。这样的结论才是真正可执行的，因为它同时说清了做什么和不做什么。排障工作真正成熟的标志，不是参数列表越来越长，而是无证据动作越来越少。

这一章的结论是：真实生产故障必须按症状分路径排查，启动慢、预热长、P99 抖动、CPU 高吞吐低和 Native Image 功能性缺口分别有不同入口。只有把故障路径和工具链顺序结合起来，后面的 benchmark 与决策矩阵才不会沦为脱离现场的空谈。下一章继续回答一个经常被滥用的主题：benchmark 到底能证明什么，不能证明什么。

7.6 灰度、回滚与事故后复盘

JIT/AOT 相关改动一旦准备进入生产，灰度和回滚策略必须和性能分析同时设计，而不是上线前临时补。原因很简单：这类改动的收益常常只在特定流量、特定实例生命周期或特定资源压力下才会显现。如果灰度设计不能覆盖这些条件，团队即使观察到“看起来没问题”，也不代表真实风险已经被验证。对 JIT 参数、代码结构重构、Graal 试验、Native Image 切换和 PGO 引入尤其如此。

一个合格的灰度方案至少要回答：灰度样本是否覆盖冷启动与稳态、是否覆盖高价值租户、是否覆盖主要功能路径、失败时能否快速回到原镜像或原参数、回滚后是否会残留额外运维成本。例如 Native Image 切换如果需要不同镜像、不同探针或不同运行参数，就不应把回滚简化理解为“重新发版”；JIT 参数实验如果改变了编译线程或代码缓存，灰度时也要同步观察节点层资源影响，而不是只看单实例响应时间。

事故后复盘同样重要。很多性能优化即使最终没有进入生产，也应该留下明确结论：试过什么、为什么无效、哪些症状被排除了、哪些证据仍不足。这样未来再遇到类似投诉时，团队可以快速知道哪些方向已经被证明收益有限，避免重复消耗。对技术知识库来说，这类“无效但有价值”的实验记录往往和成功案例一样重要，因为它们定义了组织的边界认知。

7.7 容器平台上的 JIT 误判链

容器化平台会让不少原本清晰的问题变得更会伪装。一个常见链路是这样的：实例在节点上被调度后，先遭遇较紧的 CPU 配额；发布系统又要求它尽快通过探针；于是实例在类加载、框架初始化和早期编译活动叠加的阶段被过早接入流量；接入流量后，由于业务线程和编译线程同时争抢同一配额，P99 短时间明显抖动；监控上看到的是“Java 服务上线后变慢”，但真正的问题可能是调度和进流策略与预热曲线不匹配。此时如果团队只在应用层加参数，却不改探针和进流节奏，通常只会反复踩中同一条链路。

另一条链路是内存可见性错位。某些服务在 JVM 模式下 RSS 偏高，被平台统一标记为“内存不经济”；于是团队被推动去尝试 Native Image。结果原生镜像的确让 RSS 好看了，但因为初始化时机、资源元数据或本地库边界处理不足，线上开始出现功能不等价或调试难度陡增。问题不在于平台追求资源效率本身，而在于把“RSS 高”直接翻译成“应该切 AOT”，中间缺少了对 heap、metaspace、代码缓存、直接内存和页缓存的拆解。容器平台上的误判，往往就发生在这种指标压缩阶段。

第三条链路则来自自动扩缩容。平台看到平均 CPU 升高就扩容，新实例起来后又需要预热；预热期吞吐不足导致负载再次扩散，触发更多扩容；更多扩容意味着更多处于冷阶段的新实例，于是整个平台看起来像“Java 一扩容就更慢”。如果没有把冷启动段、预热段和稳态段拆开，团队很容易把这解释成 JIT 天生不适合弹性环境。实际上，真正需要被重构的往往是扩缩容阈值、进流节奏、实例保活时间或预热设计，而不是立即替换整个运行时。理解这种误判链，对平台团队和应用团队同样重要，因为它说明问题是跨层出现的，不能只在某一层求解。

8. Benchmark 与证据

本章回答的问题是：JIT/AOT 相关 benchmark 应该如何设计，才能服务于架构判断，而不是制造新的幻觉。读完这一章，读者应该能区分 microbenchmark、服务级压测、冷启动实验、稳态对照试验和 PGO 训练样本的证据价值，知道每类实验能回答什么，不能回答什么。生产边界是：benchmark 只能证明被精确定义的问题，不能自动外推到所有 workload。常见失败模式是用一次 microbenchmark 决定架构，或者用一次服务压测替代长期运行证据。

8.1 Microbenchmark 只能回答局部成本问题

JIT/AOT 话题里最容易被转发的图，往往来自 microbenchmark。原因很简单：它们结果清晰、差异明显、便于展示。但这类结果最大的问题，是它们天然只回答局部成本问题。例如某段数组求和、某个对象分配模式、某条分支结构在 JMH 里表现出明显差异，这可以说明该局部代码形态对编译器很敏感；却不能自动说明你的 Spring Boot 服务、Kubernetes API、批处理任务或多租户业务系统也会以同样幅度受益。系统级性能包含 I/O、锁、GC、缓存、外部依赖和调度行为，microbenchmark 很难覆盖这些因素。

因此，架构师不应轻视 microbenchmark，也不应过度信它。它最适合用于回答“某个局部重构是否让热点代码形态更有利于编译器”“某种数据结构或 API 选择在隔离条件下是否真的影响局部成本”。如果某个假设连在 microbenchmark 中都站不住脚，那通常更没有理由进入生产试验；但如果它在 microbenchmark 中成立，也只说明值得进入下一层服务级验证，而不是足以直接发布。把 microbenchmark 放到整条证据链中的正确位置，比单独讨论它“准不准”更重要。

8.2 JMH 的职责是防止我们测到假的热点

JMH 的最大价值，不是给 Java 世界提供一个“官方 benchmark 写法”，而是帮团队避开解释器预热、死代码消除、常量折叠、循环展开错位、单次运行噪音和 JVM 优化干扰这些经典陷阱。对 JIT/AOT 主题来说，JMH 还有一个特别重要的意义：它迫使团队显式区分 warmup、measurement、fork 和状态初始化阶段。很多关于 JIT 的错误结论，本质上就是因为测试设计里没有把预热和测量分开，导致团队把“还没热起来的阶段”和“已经稳定运行的阶段”混成一张数字表。

场景：你想验证某个局部代码形态是否真的影响热点路径，比如对象分配模式、接口分派方式或循环结构，而不是测量测试框架本身。
原因：JMH 能帮助隔离 warmup、测量轮次和常见 JVM benchmark 幻觉，避免把死代码消除或常量折叠误当成优化收益。
观察点：关注 warmup 后的稳定结果、方差、fork 间差异和环境冻结条件，而不是只摘取单次最快数值。
生产边界：JMH 只适合局部验证，不能替代服务级压测、容器实验和真实依赖场景。

java -jar benchmarks.jar -bm thrpt -wi 5 -i 10 -f 2

JMH 输出一旦出现后，团队接下来最重要的动作不是截图，而是解释。为什么这个局部差异成立，它对应的是调用边界、分配边界、类型分布还是循环结构？这个局部差异在服务里是否真的位于热点路径？如果答案不清楚，benchmark 本身并没有错，只是它还没有进入架构语境。证据只有在被放回系统中解释时，才开始有真正价值。

8.3 服务级压测必须冻结环境与 workload

一旦进入服务级 benchmark，重点就从“局部代码形态”转向“系统目标函数”。此时最重要的前提，是冻结环境：JDK 版本、镜像、容器 CPU/memory limit、GC 配置、实例数量、依赖版本、压测脚本、数据规模、租户分布、是否命中缓存、是否包含冷启动段和稳态段，都必须明确记录。没有这些边界，服务级结果几乎无法复现。JIT/AOT 讨论尤其如此，因为编译、预热和部署形态都高度依赖环境。如果一个对比实验里连 CPU 配额都不同，那么得出的“Native Image 更省资源”或“JIT 峰值更高”都可能只是环境差异的投影。

服务级压测还必须明确时间窗口。至少要分出：冷启动段、预热段、稳态段和流量切换段。对 JIT 来说，这些窗口决定了结论是否成立；对 AOT 来说，它们又决定了收益到底落在哪一段。很多架构争论之所以绕不出去，是因为一方拿的是冷启动数据，另一方拿的是稳态吞吐，双方都是真的，但问题定义根本不同。只要把时间窗口写进实验设计，很多争论其实能在开始前就被消解。

还要额外强调一点：服务级压测必须确认功能等价，而不是只确认“接口能返回 200”。Native Image 或 Graal 试验中，最危险的对比方式是：原生镜像因为少了某些资源、反射路径或初始化行为，实际上走了更短或更简单的功能路径，于是看起来“更快”。这类结果在统计意义上可能非常漂亮，在工程意义上却是无效证据。功能等价、依赖等价和流量等价，三者缺一不可。

8.4 证据包必须覆盖“能做判断”和“能回滚”

一份合格的性能证据包，不应只包含结果图表，还应包含运行时身份、环境冻结条件、工作负载定义、主要指标、误差窗口、对照组、告警与错误率，以及回滚前提。对 JIT/AOT 主题来说，至少应记录：JDK/发行商/build、启动参数、容器配额、GC、是否启用 Graal/JVMCI、是否为 Native Image、是否使用 PGO、warmup 长度、压测并发模型、P50/P95/P99、吞吐、CPU、RSS、代码缓存或编译事件摘要、GC 指标以及依赖侧健康度。这样做的目的不是文档化而已，而是让后续任何一次性能回归都能对照同一套基线。

更重要的是，证据包必须服务回滚。比如某次试验显示 Native Image 让冷启动显著改善，但稳态吞吐略低，同时功能性边界需要更多 metadata；那么最终结论可能是“对函数型场景保留，对长时 API 服务暂不切换”。只有证据包同时记录收益、代价和适用边界，组织才能在不同场景下做差异化决策。否则，任何一次局部成功都很容易被误传成全局标准答案。

8.5 最值得警惕的 benchmark 反模式

JIT/AOT 主题里最常见的 benchmark 反模式，几乎都与“定义偷换”有关。第一种是只看平均值，不看预热和长尾；这样会把预热代价和 P99 风险全部抹平。第二种是只测计算，不测真实依赖；这样会夸大编译器对系统吞吐的影响。第三种是把一次成功运行当成稳定结论，不报告方差和环境。第四种是比较两个不同部署形态时，没有保证功能等价、依赖等价和 workload 等价。第五种是把训练过的 PGO 二进制和未冻结 workload 的 JIT 服务直接对比，得到一个表面上漂亮、实则不可复现的胜利故事。

成熟团队面对 benchmark 时，真正应该问的是：“这个实验到底在回答什么问题？”如果回答不出来，图再漂亮也没有意义。反过来，只要问题定义清楚，即便实验结果并不惊艳，也仍然有价值，因为它帮助团队避免走向更昂贵的试验或错误架构决策。benchmark 的职责不是生成结论，而是约束结论。

这一章的结论是：microbenchmark、JMH、服务级压测、冷启动实验和 PGO 样本都只是证据工具，它们的价值取决于问题定义、环境冻结和是否支持后续回滚。下一章将把前面所有内容收束成一个架构决策矩阵：什么时候该保留 JIT，什么时候该评估 Graal，什么时候该考虑 AOT，什么时候最正确的决定反而是接受现状。

8.6 证据归档比一次跑分快更重要

性能实验如果只停留在聊天记录、临时截图或一张汇总表里，生命周期通常非常短。几个月后团队换了 JDK、换了镜像、换了压测脚本、换了业务流量，原来的结果就很难再被解释。对 JIT/AOT 这类高环境敏感主题而言，证据归档尤其重要。团队应尽量把实验条件、命令、版本、镜像哈希、关键指标、误差范围、功能等价说明、适用边界和回滚结论一起存入可检索位置。这样后续再做类似试验时，才能知道自己是在重复验证同一件事，还是在验证一个真正新的变量。

归档还有一个更现实的价值：它减少口耳相传造成的失真。很多组织里的性能“经验”，最终都变成了脱离上下文的口号，例如“某个框架配 Native Image 就一定好”“某个 flag 在我们公司很有效”。如果没有归档，后人几乎不可能知道这些结论当时适用于什么 JDK、什么流量、什么容器条件。证据归档做得越好，组织就越不容易被这类脱上下文经验绑架。

8.7 用业务价值解释性能收益

性能收益如果不能被翻译成业务价值，组织通常不会长期为它付出复杂度成本。JIT/AOT 主题尤其如此，因为很多收益来自启动、预热、峰值吞吐和资源占用这些中间指标，它们必须再经过一层业务解释，才能成为稳定决策依据。例如，冷启动缩短二百毫秒，对一个每天只滚动发布一次的内部后台服务可能几乎没有价值；但对高频按需启动的函数型工作负载，它可能直接影响超时率和账单。稳态吞吐提升百分之十，对一个本就不受 CPU 约束的服务也许无关紧要；对一个长期 CPU 打满、节点成本高昂的批处理平台，则可能意味着明显的机器节省。

因此，benchmark 报告里不应只有技术指标，还应写出“这项变化对业务意味着什么”。例如：是否减少了高峰扩容实例数，是否缩短了回滚窗口，是否提升了特定租户的 SLA 稳定性，是否降低了单位请求成本，是否让某类部署更可预测。只有这样，JIT 与 AOT 的讨论才不会停留在 JVM 专家的局部兴趣里，而能进入产品、平台和财务都能理解的语言。否则哪怕技术上确实更优，也很难在组织中获得持续支持。

业务价值解释还有助于约束过度优化。很多“看起来更快”的实验，如果换算成业务价值后几乎没有差异，就应当被及时止损。反之，某些技术指标差异并不惊艳，但如果恰好改善了最难承受的业务风险，例如发布后新实例稳定性或灾难恢复时的冷启动窗口，它就可能比一项更大的吞吐提升更值得投资。把技术收益翻译成业务后，优化优先级才真正变得清晰。

8.8 冷启动验收与稳态验收必须分开

很多组织在验收性能改动时只写一条模糊标准，例如“整体性能不能退化”或“平均响应时间更好”。这在 JIT/AOT 主题下几乎一定不够，因为冷启动与稳态往往对应不同甚至相反的优化方向。一个方案可能让首个请求明显变快，却让长时间运行后的峰值吞吐略降；另一种方案可能让稳态更高效，却把实例刚拉起时的一两分钟变得更难看。如果验收标准不把这两类窗口拆开，团队最后得到的就不是清晰结论，而是一份互相抵消的平均数。

正确的验收方式应至少区分三层。第一层是冷启动验收，关注从进程拉起到探针通过、首个成功请求、首个 SLA 内请求之间的时间预算，以及这个阶段的 CPU、RSS 和错误率。第二层是预热验收，关注新实例在前几分钟内的吞吐爬升速度、P95/P99 抖动和是否需要平台侧保护措施。第三层是稳态验收，关注在负载稳定、缓存稳定、依赖稳定后，单位请求成本、峰值吞吐和长尾延迟是否符合目标。只要把验收拆成这三层，许多“到底算不算更好”的争论就会自动收敛，因为大家终于在谈同一件事。

对架构师而言，这种拆分还有一个好处：它迫使团队承认不同场景可以接受不同最优值。平台可能允许某些长期运行的后台服务在冷启动阶段略慢，只要稳态成本足够低；却不会允许面向外部的函数型入口在首个请求上有同样代价。把冷启动和稳态分别验收，本质上是在把运行时技术决策重新对齐到业务场景，而不是试图用一个平均分数统治所有服务。

9. 决策矩阵与反模式

本章回答的问题是：面对真实的工程约束，架构师该如何把 JIT、Graal、Native Image、PGO 和“不做改动”放进同一张决策表。读完这一章，读者应该能根据目标指标、系统生命周期、动态行为、依赖生态和组织能力做出方向判断，而不是在抽象层面争论“哪种技术更先进”。生产边界是：矩阵只能给方向，最终仍要靠工作负载证据收敛。常见失败模式是把矩阵当结论生成器，或者把任何新技术都理解成“有条件时总该上”。

9.1 先按目标函数选方向，而不是按技术名词选方向

最容易做对的第一步，是先写清目标函数。如果业务最在意的是冷启动预算、函数按需扩缩、短生命周期作业体验或边缘节点体积，那么 AOT 和 Native Image 更值得优先评估；如果业务最在意的是长时稳态吞吐、复杂运行时动态性、成熟诊断工具和框架兼容性，那么 HotSpot JIT 更可能是默认基线；如果系统已经在 HotSpot 上运行稳定，但某类固定 workload 的热点质量仍值得进一步实验，Graal 或 PGO 才可能进入候选。这一顺序看似朴素，却能过滤掉大量无意义讨论。因为一旦目标函数不清，任何技术都能找到某个维度证明自己更好。

更进一步，目标函数不只来自技术指标，也来自组织能力。团队是否能长期维护 Native Image metadata？是否有能力为 PGO 维护代表性训练样本？是否具备在 JVMCI/Graal 组合上持续做版本验证的流程？如果答案是否定的，即使某项技术在局部实验里更优，也未必应该进入生产基线。架构决策从来不是“纸面性能最好就赢”，而是“综合收益、风险和维护能力后最划算的方案获胜”。

9.2 方向矩阵：该优先怀疑什么、优先试什么

目标或约束	更可能的首选方向	应优先验证的风险
冷启动敏感、生命周期短	Native Image 或其他 AOT 形态	反射、资源、类初始化与功能等价
长时稳态吞吐优先	HotSpot JIT 作为基线	预热成本、代码缓存、热点稳定性
类型丰富、特定热点可疑	在基线清楚后实验 Graal/JVMCI	发行版支持、诊断链和版本维护
已有稳定原生镜像流程且 workload 固定	在 AOT 基础上评估 PGO	训练样本代表性和回滚机制
框架动态性强、插件多、排障要求高	更偏向保留 JVM 模式	盲目追求启动数字导致功能回归
问题主要来自 I/O、数据库或锁竞争	优先改系统与业务路径，而不是编译器	把非编译器问题误判成 JIT 问题

这张矩阵真正的作用，不是把世界切成非黑即白，而是帮助团队先问对问题。比如某个 Kubernetes API 服务如果扩缩容非常频繁，的确有理由评估 AOT；但如果它同时深度依赖反射、脚本和成熟线上诊断，那么“值得评估”也不等于“立即切换”。同样，一个长期运行的批处理服务如果每次任务都要加载大量类并且运行数小时，JIT 与 AOT 的边界就可能与常规在线服务不同。矩阵提供的是方向，不是免思考许可证。

9.3 很多时候最正确的决策是什么都不改

在性能优化语境里，“不改”常常被误解为保守或不作为，但对成熟架构师来说，这恰恰可能是最高质量的决定。当证据显示系统的主瓶颈不在编译器，当现有方案已经在目标函数上足够稳定，当新方案虽然在某个局部指标上更优却会显著提高维护复杂度时，明确写下“维持现状”本身就是一种负责任的架构决策。很多性能事故，恰恰来自本来没有足够证据，却因为组织焦虑而引入了更多运行时不确定性。

要让“不改”成为可接受结论，关键是把理由写清楚。例如：当前服务的核心瓶颈在数据库和外部 API，JIT 相关指标无异常，继续投入编译器方向收益预期很低；或者：Native Image 在冷启动实验中表现更好，但当前服务需要的动态代理、SPI 和诊断链会显著提高维护成本，且平台目标并不以冷启动为核心，因此暂不切换。这样的“不改”，并不是放弃优化，而是把优化资源留给更可能产生价值的方向。

9.4 最常见的反模式不是技术选错，而是问题定义错

JIT/AOT 相关的最大反模式，通常不是“选了不够先进的技术”，而是从一开始就定义错问题。把一次性能波动看成编译器结构性缺陷，把冷启动结果外推到稳态吞吐，把微服务 API 的需求套用到 CLI 工具，把某个局部 benchmark 结果写成平台标准，把一次原生镜像成功构建等同于长期维护可行，这些都属于问题定义错误。问题一旦定义错，后面的所有技术细节都会变成错误问题下的正确努力。

另一个高频反模式，是把参数调整当成诊断。参数当然重要，但它们应当服务于已知假设，而不是代替假设本身存在。没有前置证据就调阈值、调代码缓存、加编译线程、切 Graal、上 PGO、换 Native Image，本质上是在用变更制造更多变量。真正成熟的性能治理文化，恰恰相反：先减少未知，再减少动作，再减少范围。这样做看起来慢，实际往往更快，因为它避免了无数次错误岔路。

还有一种常见反模式，是把“保守措辞”理解成“缺乏结论”。事实上，JIT/AOT 主题恰恰需要保守，因为它面对的是高时间敏感、高版本敏感和高 workload 敏感的问题。一个真正可信的结论，往往不是“某技术绝对更快”，而是“在这些前提下，它更值得优先验证；在那些前提下，它不值得优先验证”。这种结论听起来没那么刺激，却更符合长期工程事实。架构师应该习惯这种表达方式，而不是被确定性口号绑架。

9.5 何时结束优化

所有性能治理最终都会碰到一个问题：什么时候该停。JIT/AOT 主题尤其如此，因为它很容易不断打开新的技术可能性。你可以继续看更细的内联日志、继续做更复杂的 PGO 训练、继续尝试另一套镜像形态、继续推测某个热点也许还能再榨一点性能。但如果边际收益已经低于验证和维护成本，继续优化就不再是工程理性，而更像技术好奇心的延长线。

结束优化不等于放弃性能，而是承认系统存在更高优先级目标。只要当前方案在目标函数上满足业务要求、风险可控、回滚明确、组织能维护，那么“到此为止”本身就是一种成熟决定。对架构师来说，真正难的不是开始优化，而是知道何时可以停下，并把这个停下的理由写成组织可接受、可复查的结论。

9.6 典型场景决策案例

把前面的原则落到典型场景里，决策会更直观。第一类是标准在线 API 服务。它通常有稳定的常驻实例、较复杂的框架依赖、成熟的监控和较高的线上诊断要求。在这种场景下，HotSpot JIT 往往应当是默认基线，除非证据表明冷启动和 RSS 已经显著限制扩缩容或发布策略。第二类是 CLI 工具、短作业和某些函数型任务。它们生命周期短，冷启动成本经常占主导，AOT 更值得优先评估，但前提是功能边界足够稳定，组织也能承担元数据和构建链维护。第三类是高性能批处理或计算型服务。它们若热点稳定、运行时长足够长，就应优先把 JIT 基线、容器配额、热点结构和 benchmark 设计打磨清楚，再决定是否引入 Graal 或 PGO。

第四类是多租户差异很大的企业服务。这类服务最容易出现“某些租户请求路径很稳定，某些租户请求路径高度多态”的情况。对它们来说，最大的风险往往不是平均性能，而是不同流量子集之间的 profile 稳定性差异。此时架构师更应关注是否需要按路径拆热点、前置分流或改善预热策略，而不是急着做全局形态切换。第五类是平台型中间件或插件型系统。它们高度依赖动态扩展和运行时类加载，JIT 的动态适应能力和成熟诊断链通常更有吸引力；贸然切向闭世界更强的 AOT 形态，往往会让维护成本迅速上升。

这些案例的共同点，是它们都强调“先定义场景，再选技术”。没有任何一种运行时选择能天然覆盖所有目标。真正的架构能力，是把场景、指标、组织能力和回滚条件一起纳入决策，而不是试图寻找一个对所有系统都成立的通用答案。

9.7 把决策过程写成团队共用语言

JIT/AOT 相关决策之所以容易反复重来，一个重要原因是团队缺少统一语言。有人从 JVM 内部实现角度发言，有人只看平台成本，有人只看业务 SLA，有人只看发布体验，最后每个人都在说真实问题，却很难把这些问题放进同一张决策纸。架构师的职责之一，就是把讨论收束成一套共用提问：目标函数是什么，当前运行时身份是什么，症状发生在哪个时间窗，证据说明热点和主瓶颈在哪里，候选方案分别改善什么又牺牲什么，灰度与回滚怎么定义，什么情况下我们决定不继续优化。

一旦这套语言稳定下来，团队做性能评审就会轻松很多。每次新提案都不需要重新解释“为什么平均值不够”“为什么要记录 JDK build”“为什么要分冷启动和稳态”“为什么 benchmark 要写 workload 边界”。这些原则会逐渐变成默认合同。对知识库维护来说，这种合同化语言尤其有价值，因为它能减少后续复盘、评审和团队材料之间的术语漂移，让不同来源的性能知识可以彼此对齐。

更现实地说，共用语言还能减少“英雄式性能优化”。如果没有统一口径，优化工作很容易依赖少数非常懂 JVM 的人；一旦这些人不在场，团队就只剩下一堆难以解释的参数和历史经验。把决策过程写成大家都能复查的语言，才能让 JIT/AOT 相关能力真正从个人经验升格为组织能力。

9.8 不要把局部胜利故事直接升级成平台模板

很多性能治理失败，并不是因为团队完全没有得到正向结果，而是因为把某次局部胜利过快升级成了平台模板。比如某个函数型服务切到 Native Image 后冷启动显著改善，于是平台开始推动所有 Java 服务都评估原生镜像；又比如某个计算型批处理任务在 Graal 试验中获得更好吞吐，于是团队开始默认怀疑所有服务都应该尝试 JVMCI；再比如某次通过调整编译线程解决了预热抖动，于是这组参数被写进公共启动模板。这些动作看起来像是在“复用成功经验”，但它们真正复用了什么，往往并没有被说清楚。

问题的根源在于，局部胜利故事通常同时包含两部分内容：一部分是可迁移的决策方法，例如如何定义目标函数、如何建立证据链、如何验证和回滚；另一部分是不可直接迁移的场景条件，例如该服务的生命周期、框架依赖、流量形状、部署平台、功能边界和组织维护能力。真正值得平台化的，多半是前一部分，而不是后一部分。若把后一部分也一起打包成模板，团队很快就会在不适用的场景里重复同一动作，然后惊讶地发现“明明照着成功案例做了，结果却完全不同”。

因此，架构师在沉淀 JIT/AOT 经验时，应始终把“可复用的方法”和“不可复制的前提”明确拆开。模板可以沉淀问题定义、证据采集顺序、灰度与回滚格式、benchmark 归档规范；而像“应默认切 Native Image”“应默认启用某组阈值”“应统一使用某发行版的 Graal 组合”这类结论，只有在平台目标、依赖生态和组织能力都高度同质时才有意义。绝大多数企业系统并不具备这种同质性，所以与其沉淀“技术标准答案”，不如沉淀“如何快速判断是否值得试这条路线”的标准方法。

从长期治理角度看，这种区分还能保护组织免于技术摆荡。很多平台在几年内会经历好几轮“新运行时、更快镜像、更先进编译器”的浪潮，如果每次都把局部成功直接写成全局模板，最终得到的不是平台能力，而是一串互相覆盖的历史口号。只有把方法论沉淀得比具体技术更稳定，团队才能在下一次技术更迭到来时，沿用同一套判断框架，而不是再次陷入从口号到口号的摆荡。

这一章的结论是：决策矩阵的核心不是告诉你“哪条路线更强”，而是把目标函数、组织能力、依赖边界和证据要求放回同一个框架里。只要这个框架成立，JIT、Graal、Native Image、PGO 与“不改”都可以成为合理答案。最后一章将用更直接的方式收束全文：面对 JIT 与 AOT，架构师真正应该带走的长期判断是什么。

10. 结论

本章回答的问题是：JIT/AOT 最终应该给 Java 架构师留下什么判断。结论其实并不花哨。第一，JIT 与 AOT 不是一场“谁更先进”的竞赛，而是针对不同目标函数的不同工程交易。第二，HotSpot 的解释器、C1、C2、去优化、代码缓存和编译预算，决定了 Java 性能天然带有时间维度；因此任何脱离时间窗口的性能判断都很容易失真。第三，Graal、JVMCI、Native Image 和 PGO 都值得被理解，但只能在目标、动态性、维护成本和证据能力共同约束下采用。第四，真正高质量的性能工作，并不是参数越多越好，而是症状定义越清楚、证据链越完整、误判越少越好。

对组织来说，这意味着性能治理需要从“参数文化”转向“证据文化”。团队不应该先问“有没有哪个 flag 能让它变快”，而应该先问“我们到底在优化启动、预热、峰值吞吐、尾延迟还是常驻内存”“这些指标是由运行时内部、业务代码、外部依赖还是部署形态主导”“我们手里已经有什么证据，还缺什么证据”。一旦这些问题被养成习惯，很多原本看似复杂的 JIT/AOT 决策都会变得简单，因为错误选项会在早期就被证据排除。

对架构师个人来说，更重要的长期能力不是熟记编译器细节，而是知道什么时候该深入、什么时候该停止。能在需要时读懂 JFR、识别热点、理解内联和去优化边界，当然重要；但同样重要的是，在证据已经表明问题不在编译器时，敢于把精力转向 GC、I/O、锁竞争、框架初始化、容器预算或发布策略。JIT 与 AOT 只是 Java 工程世界中的一部分。真正优秀的架构判断，永远来自把这部分放回整个系统里看，而不是让它脱离上下文独自发光。

10.1 给架构师的行动建议

如果把全文压缩成一组可执行动作，第一条建议是：永远先写问题定义，再开工具。没有症状定义、时间窗口和目标函数，任何性能诊断都会很快滑向参数试错。第二条建议是：永远先确认当前运行时身份，再引用任何经验。JDK 版本、发行商、构建号、容器配额和镜像形态没有冻结，经验就没有可比性。第三条建议是：把 JFR、采样、编译日志和 benchmark 看作一条证据链，而不是彼此竞争的“更专业工具”。第四条建议是：任何运行时形态切换都要同时写出功能边界、灰度方案和回滚条件。没有这些，所谓优化只是在增加未知。

第五条建议是：主动接受“正确答案有时是不改”。在很多组织里，性能优化最大的浪费不是做得不够，而是做得过多。只要证据已经说明主瓶颈不在编译器方向，或者当前方案虽然不完美但在业务目标上已足够稳定，那么把资源转给更高优先级问题，本身就是负责任的架构行为。第六条建议是：把成功和失败的实验都沉淀下来。JIT/AOT 相关能力只有被反复验证、被清晰记录、被跨团队复用，才会真正变成长期资产，而不是一次性的专家经验。

最后一条建议则更偏方法论：把性能讨论从“哪种技术更强”转成“哪种技术在当前约束下更值得验证”。一旦团队学会这样提问，JIT、Graal、Native Image 和 PGO 就不再是彼此对立的旗帜，而只是不同边界下的候选工具。架构判断的价值，也正是在这里体现出来。

10.2 从一次优化走向持续治理

如果组织想真正把 JIT/AOT 相关能力沉淀下来，最终必须把它从“高手临场排障”升级成“持续治理流程”。持续治理的第一层，是运行时基线治理：统一记录各服务采用的 JDK 发行线、主版本、关键 flag、容器资源约束和镜像形态，避免不同团队在完全不同基线下重复争论。第二层，是证据治理：让 JFR、采样报告、benchmark 条件、灰度结果和回滚结论进入可检索位置，而不是散落在个人终端、聊天记录或临时表格里。第三层，是决策治理：为“切换 Native Image”“试验 Graal”“引入 PGO”“调整编译参数”建立统一的评审问题，确保每次讨论都回到目标函数、证据、风险和组织成本。

持续治理还要求团队接受一个现实：性能不是一次性工程成果，而是会随着业务形态变化持续漂移。新租户、新功能、新框架版本、新容器基线、新调度策略和新节点硬件，都可能让原本成立的 JIT 或 AOT 判断失效。因此，最有价值的不是某次实验给出的绝对数字，而是组织是否学会了在变化出现时快速重建判断。能做到这一点的团队，即使将来从 HotSpot 基线转向新的 Graal 版本、引入更多 AOT 形态或重新定义扩缩容策略，也不会陷入从零开始的混乱。

从团队知识库角度看，真正耐用的是“从症状到诊断再到决策”，而不是“从概念到参数再到结论”。前一种结构可以被复用到未来变化中，后一种结构则很容易随着版本和 workload 老化。Java 的长期价值并不只在某一个编译器实现上，而在它允许工程团队把运行时、工具链、部署形态和业务系统长期整合起来。JIT 与 AOT 的最佳实践也应当以这种长期整合能力为目标，而不是追逐一次性的跑分胜利。

持续治理还有一个容易被忽略的要求：定期重新验证“我们现在最关心的性能目标是否仍然没变”。组织在不同阶段关注点会变化。早期可能更看重上线速度和冷启动体验，后期可能更看重稳态成本和平台可维护性；某个业务在增长初期可能主要受限于扩缩容，成熟后又可能主要受限于数据库和下游系统。JIT 与 AOT 的相对价值也会随之变化。因此，最好的治理方式不是永远坚持某条技术路线，而是定期复查目标函数是否发生迁移，并据此重估现有方案是否仍然合算。

参考资料

OpenJDK HotSpot Group: https://openjdk.org/groups/hotspot/
Oracle JDK Tool Reference for jcmd: https://docs.oracle.com/en/java/javase/
Java Flight Recorder Runtime Guide: https://docs.oracle.com/javacomponents/jmc-5-4/jfr-runtime-guide/
JITWatch: https://github.com/AdoptOpenJDK/jitwatch
async-profiler: https://github.com/async-profiler/async-profiler
GraalVM Native Image Reference Manual: https://www.graalvm.org/latest/reference-manual/native-image/
JMH Project: https://openjdk.org/projects/code-tools/jmh/
Oracle Java SE Support Roadmap: https://www.oracle.com/java/technologies/java-se-support-roadmap.html

Series context

你正在阅读：Java 核心技术深度解析

当前为第 7 / 8 篇。阅读进度只写入此浏览器的 localStorage，用于回到系列页时定位继续阅读入口。

查看完整系列 →

Reading path

继续沿这条专题路径阅读

按推荐顺序继续阅读 Java 相关内容，而不是只看同专题的随机文章。

查看完整专题路径 →

Next step

继续深入这个专题

如果这篇内容对你有帮助，下一步可以回到专题页继续系统阅读，或者订阅后续更新。

返回专题页订阅 RSS 更新

RSS Subscribe

订阅更新

通过 RSS 阅读器订阅获取最新文章推送，无需频繁访问网站。

推荐使用 Follow 、Feedly 或 Inoreader 等 RSS 阅读器

评论与讨论

使用 GitHub 账号登录参与讨论，评论将同步至 GitHub Discussions

正在加载评论...

JIT 与 AOT：从症状、诊断到优化决策

摘要

1. 性能问题先从症状开始

1.1 启动慢、预热长、峰值差不是一个问题

1.2 CPU 高、延迟抖、内存大并不自动指向 JIT

1.3 首轮排查应该拿到哪些证据

1.4 为什么同一个投诉会拆成不同工单

2. JVM 执行模式与分层编译

2.1 解释器、C1、C2 与 OSR 各自解决什么问题

2.2 Profile、计数器与去优化为何决定优化质量

2.3 代码缓存与编译线程是经常被忽略的运行时预算

2.4 先看当前 VM，再谈任何阈值和 flag

2.5 为什么预热曲线本身就是架构指标

3. JIT 能优化什么

3.1 内联首先改变的是调用边界，而不是几条指令

3.2 去虚化依赖的是类型稳定性，不是接口数量少

3.3 逃逸分析改变的是分配与同步成本的边界

3.4 循环优化、范围检查消除与热点稳定性有关

3.5 JIT 优化是条件性收益，不是语言承诺

3.6 热点友好不等于“为了优化牺牲设计”

4. 优化为什么失效

4.1 类型分布、类加载与去优化风暴

4.2 代码结构本身会限制编译器视野

4.3 编译预算、代码缓存与容器 CPU 配额会吞掉理论收益

4.4 把 GC、I/O、锁竞争或业务外因误判成 JIT 问题

5. Graal、JVMCI、Native Image 与 PGO 的边界

5.1 Graal 与 JVMCI 改变的是编译器实现和可优化空间

5.2 Native Image 的价值在部署形态，不只是在“更快”

5.3 反射、资源、类初始化与本地依赖决定 AOT 难度

5.4 PGO 只有在 profile 代表真实 workload 时才成立

5.5 真正的边界问题是“优化目标是什么”

5.6 选型前的组织级检查清单

6. 诊断工具链

6.1 JFR 应该是大多数生产诊断的第一站

6.2 PrintCompilation 与 PrintInlining 适合回答“为什么没编进去”

6.3 JITWatch 的意义在于把编译决策还原成代码上下文

6.4 async-profiler 回答的是“时间花在哪里”，不是“为什么没编”

6.5 把工具链串起来，才能得到可执行结论

6.6 从问题到证据的最短路径

7. 生产故障路径

7.1 启动慢：先分离“框架初始化”与“编译行为”

7.2 预热长与 P99 抖动：先确认时间窗口，再确认事件耦合

7.3 CPU 高但吞吐低：优先区分业务热、编译热、等待热

7.4 Native Image 故障常常先表现为功能性问题，而不是性能问题

7.5 故障收敛时要给出“改什么”和“不要改什么”

7.6 灰度、回滚与事故后复盘

7.7 容器平台上的 JIT 误判链

8. Benchmark 与证据

8.1 Microbenchmark 只能回答局部成本问题

8.2 JMH 的职责是防止我们测到假的热点

8.3 服务级压测必须冻结环境与 workload

8.4 证据包必须覆盖“能做判断”和“能回滚”

8.5 最值得警惕的 benchmark 反模式

8.6 证据归档比一次跑分快更重要

8.7 用业务价值解释性能收益

8.8 冷启动验收与稳态验收必须分开

9. 决策矩阵与反模式

9.1 先按目标函数选方向，而不是按技术名词选方向

9.2 方向矩阵：该优先怀疑什么、优先试什么

9.3 很多时候最正确的决策是什么都不改

9.4 最常见的反模式不是技术选错，而是问题定义错

9.5 何时结束优化

9.6 典型场景决策案例

9.7 把决策过程写成团队共用语言

9.8 不要把局部胜利故事直接升级成平台模板

10. 结论

10.1 给架构师的行动建议

10.2 从一次优化走向持续治理

参考资料

你正在阅读：Java 核心技术深度解析

当前系列章节

继续沿这条专题路径阅读

Java 内存模型深度解析：从 happens-before 到安全发布

虚拟线程在生产系统中的并发治理

Java 技术生态展望：JDK 25 LTS、JDK 26 GA 与 JDK 27 EA

继续阅读这个专题

现代 Java 垃圾回收：生产判断、证据采集与调优路径

Valhalla 与 Panama：Java 未来内存与外部接口模型

Java 云原生生产运行指南：镜像、容器、Kubernetes、Native Image 与交付治理

继续深入这个专题