我需要使用最新的mahout版本0.9(因为我需要使用所有分布式推荐算法)。为此,我应该使用哪个版本的hadoop?
在某些地方,有人提到hadoop 2.20与mahout 0.9不兼容。因此,我可以使用mahout 0.9的最小hadoop版本是什么。
如果我使用cloudera(CDH),应该使用什么版本来处理mahout 0.9。
答案 0 :(得分:2)
所有这些版本的Mahout的默认版本适用于Hadoop 1.x,而不是2.x.所以答案是0.9实际上主要使用较旧的Hadoop版本,而你可以使用的最小版本最多只能使用1.x。
更高版本(大约0.8?)有一些支持,可以使用备用Maven配置文件进行构建,该配置文件应与Hadoop 2互操作。如果您愿意,您可以随时使用该版本来获取可能适用于给定Hadoop的版本发行版的Hadoop版本。
由于即使CDH 4.x基于Hadoop 2.x,Mahout 0.7的发行也包括了包装更改,这些更改也使其在Hadoop 2上实现了互操作性。其他供应商做了类似的事情,而这些变化又回到了上游。
因此,每个版本的CDH发行版已经与其匹配的Hadoop版本兼容,即使是基于Hadoop 2的版本。
CDH 5.0.0基本上基于Hadoop 2.3。您可以通过在其构建中定位Hadoop版本2.3.0然后在群集上使用您自己的Mahout构建来使用Mahout 0.9。
答案 1 :(得分:0)
我们目前正在使用CDH 5.0.x群集,但还需要对Mahout 0.9进行一些修复和改进。
因此,我们使用CDH 5.1.Snapshot版本的Mahout 0.9打包我们的JAR程序集,并通过“hadoop jar”命令简单地执行它。
当然你不能使用Mahout 0.9命令行界面,但至少我们可以编写自己的工作。