应用错误收集

如何将Weka与Hadoop联系起来？

时间：2014-01-23 10:50:00

标签： hadoop weka pca

我有一个数据集，我需要处理PCA（主成分分析，降维程序），使用Weka很容易。

由于数据集的大小很大，Weka会显示内存问题，如果我将Weka与Hadoop链接，可以解决这个问题。在服务器中使用weka运行算法。任何人都可以帮助我。如何将Weka与Hadoop连接以处理更大的数据集？请帮忙！

三江源..

2 个答案:

答案 0 :(得分：2)

Weka 3.7在Hadoop中提供了用于分布式处理的新软件包。这些包提供的作业之一将计算Hadoop中的相关（或协方差）矩阵。用户可以选择让作业使用相关矩阵作为PCA分析的输入（这部分在Hadoop之外运行）并生成“训练有素”的Weka PCA过滤器。这样可以在实例数量上对Weka的PCA分析进行扩展（但由于PCA计算仍然在客户端计算机上本地发生，因此不在原始特征的数量中）。

有关Hadoop软件包的更多信息，请参阅：

http://markahall.blogspot.co.nz/2013/10/weka-and-hadoop-part-1.html

distributedWekaHadoop包可以通过Weka 3.7中的包管理器安装。

干杯，标记

答案 1 :(得分：1)

根据算法的不同，重写它以使用Hadoop可能会非常复杂。

您可以改用Apache Mahout。 It does have support for PCA