据我所知,新的Java(8)引入了新的同步工具,例如LongAccumulator(在原子包下)。
在文档中,它说当多个线程的变量更新频繁时,LongAccumulator效率更高。
我想知道它是如何实现更高效的?
答案 0 :(得分:22)
这是一个非常好的问题,因为它显示了使用共享内存进行并发编程的一个非常重要的特性。在进入细节之前,我必须退后一步。看看下面的课程:
class Accumulator {
private final AtomicLong value = new AtomicLong(0);
public void accumulate(long value) {
this.value.addAndGet(value);
}
public long get() {
return this.value.get();
}
}
如果您创建此类的一个实例并在循环中从一个线程调用方法accumulate(1)
,那么执行将非常快。但是,如果从两个线程在同一个实例上调用该方法,则执行将大约两个幅度。
你必须看一下内存架构才能理解会发生什么。现在大多数系统都有non-uniform memory access。特别地,每个核心具有其自己的L1高速缓存,其通常被构造为具有64个八位字节的高速缓存行。如果内核在内存位置上执行原子增量操作,则首先必须获得对相应缓存行的独占访问权限。由于需要与所有其他核心协调,如果它还没有独占访问权限那么昂贵。
解决这个问题有一个简单而反直觉的技巧。看看下面的课程:
class Accumulator {
private final AtomicLong[] values = {
new AtomicLong(0),
new AtomicLong(0),
new AtomicLong(0),
new AtomicLong(0),
};
public void accumulate(long value) {
int index = getMagicValue();
this.values[index % values.length].addAndGet(value);
}
public long get() {
long result = 0;
for (AtomicLong value : values) {
result += value.get();
}
return result;
}
}
乍一看,由于额外的操作,这个类似乎更贵。但是,它可能比第一类快几倍,因为它具有更高的概率,即执行核心已经独占访问所需的缓存行。
为了实现这一目标,你必须考虑更多的事情:
long[8 * 4]
来实现此目的,并且仅使用索引0
,8
,16
和24
。总之, LongAccumulator 对某些用例更有效,因为它使用冗余内存进行常用的写操作,为了减少次数,必须更换缓存行核心之间。另一方面,读取操作稍微昂贵一些,因为它们必须创建一致的结果。
答案 1 :(得分:1)