我的理解是计算百分位数,需要对数据进行排序。这可以通过分布在多个服务器上的大量数据来实现,而无需移动它吗?
答案 0 :(得分:2)
虽然MapReduce作为范例看起来并不适合这个问题,但hadoop的MR实现却是。
Hadoop的map reduce实现基于分布式排序 - 这正是您所需要的。 Hadoop只是通过在服务器之间移动数据进行排序 - 不是那么糟糕。
我建议看一下hadoop terasort的实现,它说明了用hadoop对大量数据进行排序的好方法(也可能是最好的方法)。 http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html
答案 1 :(得分:2)
我首先要在一台机器或多台机器上创建一个直方图。一旦计算了可能值的桶的每个可能值,您可以根据需要组合这些值。使用直方图的好处是它具有O(1)插入/排序时间而不是O(log n)并使用O(M)空间,其中M是可能值或桶的数量而不是O(N)其中N是样本的数量。
直方图是自然排序的,因此您可以通过从任一端计数来获得总计数并找到百分位数。
答案 2 :(得分:0)
您的问题的答案是是,可能。但是Map-Reduce并不是真的适合这种任务。 Map-Reduce(例如,在Hadoop集群中使用)可以照亮非结构化或半结构化数据。虽然它具有能力来处理其他类型,但它并不是最适合它的。 (我在一家公司有一个项目,他们想在Hadoop集群中分析XML ......这不是最有趣的事情。)
This scholarly article描述了Map-Reduce对结构化数据的一些问题,并为“Clydesdale”提供了另一种方法。 (我从来没有听说过或使用过这个,所以我既不认可也不说它的优点/缺点。)
我正在寻找提供解释和替代方案的更多链接。