我是Apache Mahout的新手。我想了解Java中为Parallel Frequent Pattern Mining(来自Apache Mahout)提供的方法generateTopKFrequentPatterns()。
算法的命令行版本提供了两种运行模式,顺序和mapreduce。 java方法总是在mapreduce上运行吗?或者是因为,我们正在使用mapreduce库提供的outputcollector?
如何使用API以分布式方式在多个hadoop集群上运行此算法?
方法定义如下:
generateTopKFrequentPatterns(Iterator<Pair<List<A>,Long>> transactionStream,
Collection<Pair<A,Long>> frequencyList,
long minSupport,
int k,
Collection<A> returnableFeatures,
org.apache.hadoop.mapred.OutputCollector<A,List<Pair<List<A>,Long>>> output,
StatusUpdater updater)
throws IOException
对此的任何帮助将不胜感激。
此致 psun