我已经读过Mahout是在Hadoop上开发的,我们可以在有或没有Hadoop的情况下使用Mahout。说Mahout算法可以在Hadoop上运行是什么意思? Mahout算法不是用Map-Reduce形式编写的吗?能用一个例子向我解释一下吗?
谢谢!
答案 0 :(得分:3)
你看过源代码了吗?这些算法实现为Map / Reduce作业(不是全部,而是大部分),这正是这个陈述的原因。
答案 1 :(得分:0)
Mahout有两个版本非分布式和分布式。有一些基本的分布式(Hadoop)实现可用,如ItemBased Collaborative Filtering。默认分发的限制是,如果您的评级数据具有用户标识和项目标识为字母数字,那么您将需要自定义它。
如果你想实现一些自定义算法,那么你将不得不编写Mapper和Reducers甚至代码来调用它们。
我已经覆盖org.apache.mahout.cf.taste.hadoop.item.RecommenderJob以使用我的自定义Map和Reduce任务。
如果我错了,请大家纠正我。