mahout fpg算法不生成频繁模式文件

时间:2013-07-23 15:43:36

标签: apache mahout

我们正在尝试使用Apache Mahout算法找到频繁的模式。首先,我们为原始输入文件(大小为270 MB)的子集运行了mahout fpg并获得了fListfpgrowthparallelcountingfrequentPatterns个文件/文件夹生成。然后我们运行Mahout fpg获取完整文件,该文件大小为10 GB,具有268,752个独特功能和201590007行。但是,不会生成frequentPatterns个文件。它生成了fListfpgrowthParallelcounting个文件。日志中没有例外。工作状态是“成功”。

根据我的理解Mahout FPG程序序列三个地图缩减计划(ParallelCountingFPGrowthAggregator)。出于某种原因,当我在完整文件上运行此程序时,它不会启动Aggregator,它应该生成FrequentPatterns文件。我添加了一些记录器来查看发生了什么,重新生成了jar文件,并在我们的完整文件上重新运行mahoutstartParallelFPGrowth()不打印后没有例外和日志。

我们在三节点hadoop集群上使用以下配置。

 mahout fpg -i mahoutFPGInput/mahoutFPGOnlineInput.dat -o fpgOutput -k 100 -s 100 -g 20000 -tc 10 -method mapreduce

有没有人遇到类似的问题?

0 个答案:

没有答案