Apache Commons Math 2.2 Percentile bug?

时间:2011-04-03 20:15:47

标签: java algorithm math apache-commons percentile

我不是100%确定这是一个错误还是我没有做正确的事情,但如果你给Percentile一个大小相同的数据(见下面的代码),那么evaluate方法需要一个非常好的很久。如果给Percentile,随机值evaluate会花费相当短的时间。

如下所述,Median是Percentile的一个子标记。

Percentile java doc

private void testOne(){
  int size = 200000;
  int sameValue = 100;
  List<Double> list = new ArrayList<Double>();

  for (int i = 0; i < size; i++)
  {
    list.add((double)sameValue);
  }
  Median m = new Median();
  m.setData(ArrayUtils.toPrimitive(list.toArray(new Double[0])));

  long start = System.currentTimeMillis();
  System.out.println("Start:"+ start);

  double result = m.evaluate();

  System.out.println("Result:" + result);
  System.out.println("Time:"+ (System.currentTimeMillis()- start));
}


private void testTwo(){
  int size = 200000;
  List<Double> list = new ArrayList<Double>();

  Random r = new Random();

  for (int i = 0; i < size; i++)
  {
    list.add(r.nextDouble() * 100.0);
  }
  Median m = new Median();
  m.setData(ArrayUtils.toPrimitive(list.toArray(new Double[0])));

  long start = System.currentTimeMillis();
  System.out.println("Start:"+ start);

  double result = m.evaluate();

  System.out.println("Result:" + result);
  System.out.println("Time:"+ (System.currentTimeMillis()- start));
}

2 个答案:

答案 0 :(得分:4)

这是版本2.0和2.1之间的known issue,已针对version 3.1进行了修复。

2.0版确实涉及对数据进行排序,但在2.1中它们似乎已切换到selection algorithm。但是,a bug在实现它时导致了一些具有大量相同值的数据的不良行为。基本上他们使用&gt; =和&lt; =而不是&gt;和&lt;。

答案 1 :(得分:3)

众所周知,某些算法可能会对某些数据集表现出较慢的性能。通过在执行操作之前随机化数据集,实际上可以提高性能。

由于百分位可能涉及对数据进行排序,我猜你的“错误”并不是代码中的缺陷,而是表现较慢的数据集之一。