我看了一篇来自JavaDays的代码,作者说这种方法具有概率非常有效,可以将类似字符串存储到String实习方法
public class CHMDeduplicator<T> {
private final int prob;
private final Map<T, T> map;
public CHMDeduplicator(double prob) {
this.prob = (int) (Integer.MIN_VALUE + prob * (1L << 32));
this.map = new ConcurrentHashMap<>();
}
public T dedup(T t) {
if (ThreadLocalRandom.current().nextInt() > prob) {
return t;
}
T exist = map.putIfAbsent(t, t);
return (exist == null) ? t : exist;
}
}
请解释一下,这一行中概率的影响是什么:
if (ThreadLocalRandom.current().nextInt() > prob) return t;
这是Java Days https://shipilev.net/talks/jpoint-April2015-string-catechism.pdf的原始演示文稿 (第56张幻灯片)
答案 0 :(得分:8)
如果您查看下一个幻灯片,其中包含一个包含不同概率数据的表格,或者收听到talk,您会看到/听到理由:概率重复数据删除器平衡重复数据删除字符串所花费的时间,以及重复数据删除带来的内存节省。这允许微调处理字符串所花费的时间,甚至在代码周围撒上低概率重复数据删除器,从而分摊重复数据删除成本。
(来源:这些是我的幻灯片)
答案 1 :(得分:0)
传递给构造函数的double值是0.0到1.0范围内的概率值。它被转换为一个整数,使得它下面的整数值的比例等于double值。
整个表达式旨在评估true
的概率等于构造函数参数的概率。通过使用整数数学,它将比使用原始double值稍快一些。
实现的目的是有时它不会缓存String,而只是返回它。这样做的原因是CPU与内存性能之间的关系:如果节省内存的缓存过程导致CPU瓶颈,您可以调高&#34;什么都不做&#34;直到你找到平衡的概率。