Java虚拟机垃圾收集算法

  在早期的 C/C++时代,垃圾回收基本上是手工进行的。开发人员可以使用new关键字进行内存申请,并使用delete关键字进行内存释放,而Java虚拟机直接提供了一套全自动内存管理方案。
  在Java内存运行时区域的各个部分,其中程序计数器、虚拟机栈、本地方法栈3个区域随线程而生随线程而灭。每一个栈帧中分配多少内存基本上是在类结构确定下来时就已知的, 因此这几个区域的内存分配和回收都具备确定性,就不需要过多考虑回收的问题。 而 Java堆和方法区则不一样,一个接口中的多个实现类需要的内存可能不一样,一个方法中的多个分支需要的内存也可能不一样,我们只有在程序处于运行期间时才能知道会创建哪些对象,这部分内存的分配和回收都是动态的。

如何判断是垃圾可回收对象

引用计数法

  引用计数器的实现很简单,对于一个对象 A,只要有任何一个对象引用了 A,则 A的引用计数器就加1,当引用失效时,引用计数器就减l。只要对象A的引用计数器的值为 0,则对象A就不可能再被使用 。
  引用计数器有两个非常严重的问题:

  1. 无法处理循环引用的情况。因此,在 Java的垃圾回收器中,没有使用这种算法。
  2. 引用计算器要求在每次因引用产生和消除的时候,需要伴随一个加法操作和减法操作,对系统性能会有一定的影响。

可达性分析算法

  在主流的商用程序语言(Java、 C#)的主流实现中,都是过可达性分析来判定对象是否存活的。这个算法的基本思路就是通过一系列的称为 “GC Roots” 的对象作为起始点, 从这些节点开始向下搜索, 搜索所走过的路径称为引用链,当一个对象到GC Roots没有任何引用链相连时,则证明此对象是不可用的。
  对于下图,object5,object6,object7虽然互相有关联,但是它们到GC Roots是不可达的,所以它们将会被判定为是可回收的对象。
GC Roots可达性分析
  在Java语言中,可作为GC Roots的对象包括下面几种:

  • 虚拟机栈中引用的对象。
  • 方法区中类静态属性引用的对象。
  • 方法区中常量引用的对象。
  • 本地方法栈中JNI引用的对象。

标记-清除算法

  标记清除算法是现代垃圾回收算法的思想基础。标记清除算法将垃圾回收分为两个阶段:标记阶段和清除阶段。一种可行的实现是,在标记阶段,首先通过根节点,标记所有从根节点开始的可达对象。因此未标记的对象就是未被引用的垃圾对象。然后在清除阶段,清除所有未标记的对象。
标记清除法工作图
  不过标记清除算法有两个不足:

  • 一个是效率问题,标记和清除两个过程的效率都不高。
  • 另一个是空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致以后在程序运行过程中需要分配较大对象时,无法找到足够的连续内存而不得不提前触发另一次垃圾收集动作。

复制算法

  复制算法的核心思想是:将原有的内存空间分成两块,每次只是用其中的一块,在垃圾回收时,将正在使用的内存中的存活对象复制到未使用的内存块中,之后,清除正在使用的内存块中的所有对象,交换两个内存的角色,完成垃圾回收。
  如果系统中的垃圾对象很多,复制算法需要复制的存活对象数量就会相对较少。因此,在真正需要垃圾回收的时刻,复制算法的效率是很高的。又由于对象是在垃圾回收过程中,统一被复制到新的内存空间中。因此可确保回收后的内存空间是没有碎片的,但是这种算法的代价是将内存缩小为原来的的一半。
复制算法

Java新生代垃圾回收

  Java新生代串行垃圾回收器中,使用了复制算法的思想。新生代分为eden空间、from和to两个survivor空间。其中from和to空间可以视为用于复制的两块大小相同可进行角色互换的空间块。
  在垃圾回收时,eden空间中存活的对象会被复制到未使用的survivor空间中(假设是to),正在使用的survivor空间(假设是from)中的年轻对象也会被复制到to空间中(大对象,或者老年对象会直接进入老年代,如果to空间已满,则对象也会直接进入老年代)。此时,eden空间和from空间中的剩余对象就是垃圾对象,可以直接清空,to空间则存放此次回收后的存活对象。这种改进的复制算法,既保证了空间的连续性,又避免了大量的内存空间浪费。
  据研究表明,新生代中的对象98%是“朝生夕死”,HotSpot虚拟机默认Eden和Survivor的大小比例是8:2,也就是每次新生代中可用内存空间为整个新生代容量的90%,只有10%会被浪费。

标记-压缩法

  复制收集算法在对象存活率较高时就要进行较多的复制操作,效率将会变低。像老年代大部分对象都是存活对象,如果依然使用复制算法,由于存活对象较多,复制的成本也将很高。因此,基于老年代垃圾回收的特性,需要使用其他的算法。
  标记压缩算法是一种老年代的算法。它在标记清除算法的基础上做了一些优化。和标记清除算法一样,标记压缩算法也首先需要从根节点开始,对所有可达对象做一次标记。但之后,它并不是简单的清理未标记的对象,而是将所有的存活对象移动到内存的一端,有点类似于碎片整理。这种方法既避免了碎片的产生,有不需要两块相同的内存空间,因此性价比较高。
标记压缩法
  标记压缩算法的最终效果等同于标记清除算法执行完成后,在进行一次内存碎片整理,因此也可以把它称为标记清除压缩算法。

分代收集算法

  前面介绍的复制、标记清除、标记压缩等垃圾回收算法。在所有这些算法中,并没有一种算法可以完全替代其他算法。它们都是具有自己独特的优势和特点。因此,根据垃圾回收对象的特性,使用合适的算法回收,才是明智的选择。
  分带算法就是基于这种思想,它将内存区间根据对象的特点分成几块,根据每块内存区间的特点,使用不同的回收算法,以提高垃圾回收的效率。
  一般来说,Java虚拟机会将所有的新建对象都放入称为新生代的内存区域,新生代的特点就是对象朝生夕灭,大约90%的新建对象会被很快回收,因此,新生代比较适合使用复制算法。当一个对象经过几次回收后依然存活,对象就会被放入称为老年代的内存空间。在老年代中,几乎所有的对象都是经过几次垃圾回收后依然得以存活的。因此,可以认为这些对象在一段时期内,甚至在应用程序的整个生命周期中,将是常驻内存的。
  在极端情况下,老年代对象的存活率可以达到100%。如果依然使用复制算法回收老年代,将需要复制大量对象。再加上老年代的回收性价比也要低于新生代,因此这种做法是不可取的。根据分代的思想,可以对老年代的回收使用与新生代不同的标记压缩或标记清除算法,以提高垃圾回收效率。

参考资料

  • 《深入理解Java虚拟机:JVM高级特性与最佳实践》
  • 《实战Java虚拟机,JVM故障诊断与性能优化》
  • 《HotSpot实战》