使用hadoop计算简单统计数据的示例

时间:2010-03-31 11:23:30

标签: statistics hadoop apache-pig

我希望扩展现有的聚类算法以应对非常大的数据集,并以现在可以使用数据分区计算的方式对其进行重新设计,这为并行处理打开了大门。我一直在研究Hadoop和Pig,我认为一个很好的实际起点是计算我的数据的基本统计数据,即算术平均值和方差。

我已经谷歌搜索了一段时间,但也许我没有使用正确的关键字,我还没有真正找到任何一个很好的入门进行这种计算,所以我想我会问这里。

有人能指出一些如何使用hadoop计算均值和方差的好样本,和/或提供一些示例代码。

由于

2 个答案:

答案 0 :(得分:1)

Pig latin有一个名为PiggyBank的可重用代码库,它有许多方便的功能。不幸的是,我上次检查时没有变化,但可能已经发生变化。如果不出意外,它可能会提供一些示例来帮助您开始自己的实现。

我应该注意,差异很难以稳定的方式在庞大的数据集上实现,所以要小心!

答案 1 :(得分:1)

您可以仔细检查并查看您的群集代码是否可以放入Cascading。使用现有的java库添加新函数,连接等非常简单。

http://www.cascading.org/

如果你进入Clojure,你可能会看到这些github项目: http://github.com/clj-sys

他们正在将Clojure中实现的新算法分层叠加(通过Hadoop MapReduce进行分层)。