Question

我们正在尝试使用Apache Mahout算法找到频繁的模式。首先，我们为原始输入文件（大小为270 MB）的子集运行了mahout fpg并获得了fList，fpgrowth，parallelcounting和frequentPatterns个文件/文件夹生成。然后我们运行Mahout fpg获取完整文件，该文件大小为10 GB，具有268,752个独特功能和201590007行。但是，不会生成frequentPatterns个文件。它生成了fList，fpgrowth和Parallelcounting个文件。日志中没有例外。工作状态是“成功”。

根据我的理解Mahout FPG程序序列三个地图缩减计划（ParallelCounting，FPGrowth，Aggregator）。出于某种原因，当我在完整文件上运行此程序时，它不会启动Aggregator，它应该生成FrequentPatterns文件。我添加了一些记录器来查看发生了什么，重新生成了jar文件，并在我们的完整文件上重新运行mahout。 startParallelFPGrowth()不打印后没有例外和日志。

我们在三节点hadoop集群上使用以下配置。

 mahout fpg -i mahoutFPGInput/mahoutFPGOnlineInput.dat -o fpgOutput -k 100 -s 100 -g 20000 -tc 10 -method mapreduce

有没有人遇到类似的问题？

mahout fpg算法不生成频繁模式文件

0 个答案: