我们正在尝试使用Apache Mahout
算法找到频繁的模式。首先,我们为原始输入文件(大小为270 MB)的子集运行了mahout fpg
并获得了fList
,fpgrowth
,parallelcounting
和frequentPatterns
个文件/文件夹生成。然后我们运行Mahout
fpg
获取完整文件,该文件大小为10 GB,具有268,752个独特功能和201590007行。但是,不会生成frequentPatterns
个文件。它生成了fList
,fpgrowth
和Parallelcounting
个文件。日志中没有例外。工作状态是“成功”。
根据我的理解Mahout FPG
程序序列三个地图缩减计划(ParallelCounting
,FPGrowth
,Aggregator
)。出于某种原因,当我在完整文件上运行此程序时,它不会启动Aggregator
,它应该生成FrequentPatterns
文件。我添加了一些记录器来查看发生了什么,重新生成了jar文件,并在我们的完整文件上重新运行mahout
。 startParallelFPGrowth()
不打印后没有例外和日志。
我们在三节点hadoop集群上使用以下配置。
mahout fpg -i mahoutFPGInput/mahoutFPGOnlineInput.dat -o fpgOutput -k 100 -s 100 -g 20000 -tc 10 -method mapreduce
有没有人遇到类似的问题?