我不是100%确定这是一个错误还是我没有做正确的事情,但如果你给Percentile一个大小相同的数据(见下面的代码),那么evaluate方法需要一个非常好的很久。如果给Percentile,随机值evaluate会花费相当短的时间。
如下所述,Median是Percentile的一个子标记。
private void testOne(){
int size = 200000;
int sameValue = 100;
List<Double> list = new ArrayList<Double>();
for (int i = 0; i < size; i++)
{
list.add((double)sameValue);
}
Median m = new Median();
m.setData(ArrayUtils.toPrimitive(list.toArray(new Double[0])));
long start = System.currentTimeMillis();
System.out.println("Start:"+ start);
double result = m.evaluate();
System.out.println("Result:" + result);
System.out.println("Time:"+ (System.currentTimeMillis()- start));
}
private void testTwo(){
int size = 200000;
List<Double> list = new ArrayList<Double>();
Random r = new Random();
for (int i = 0; i < size; i++)
{
list.add(r.nextDouble() * 100.0);
}
Median m = new Median();
m.setData(ArrayUtils.toPrimitive(list.toArray(new Double[0])));
long start = System.currentTimeMillis();
System.out.println("Start:"+ start);
double result = m.evaluate();
System.out.println("Result:" + result);
System.out.println("Time:"+ (System.currentTimeMillis()- start));
}
答案 0 :(得分:4)
这是版本2.0和2.1之间的known issue,已针对version 3.1进行了修复。
2.0版确实涉及对数据进行排序,但在2.1中它们似乎已切换到selection algorithm。但是,a bug在实现它时导致了一些具有大量相同值的数据的不良行为。基本上他们使用&gt; =和&lt; =而不是&gt;和&lt;。
答案 1 :(得分:3)
众所周知,某些算法可能会对某些数据集表现出较慢的性能。通过在执行操作之前随机化数据集,实际上可以提高性能。
由于百分位可能涉及对数据进行排序,我猜你的“错误”并不是代码中的缺陷,而是表现较慢的数据集之一。