Mahout随机森林示例,命令行参数无法识别数据

时间:2014-08-05 21:15:26

标签: hadoop mahout cloudera cloudera-cdh

命令:

hadoop jar /opt/cloudera/parcels/CDH-5.0.0-1.cdh5.0.0.p0.47/lib/mahout/mahout-examples-0.8-cdh5.0.0-job.jar org.apache.mahout.classifier.df.mapreduce.BuildForest –d advert-train.csv –ds advert-info –t 100 -o advert-model

生成错误:

org.apache.commons.cli2.OptionException: Unexpected –d while processing Options

这似乎不可能。我查看了源代码,-d是必需的选项。

<小时/>     hadoop版本

返回

Hadoop 2.3.0-cdh5.0.0

文件advert-train.csv和advert-info都存在于我的默认HDFS目录/ users / cloudera

1 个答案:

答案 0 :(得分:1)

在mahout中运行随机森林的详细说明可以在这里找到: https://mahout.apache.org/users/classification/partial-implementation.html

我能够在Cloudera CDH 5.0中运行此示例,没有任何问题。我认为问题可能是由于配置或您还需要指定其他参数的事实。我只是在Cloudera中使用了mahout命令来运行这个例子。在您的情况下,命令将是:

mahout org.apache.mahout.classifier.df.mapreduce.BuildForest 
-Dmapred.max.split.size=1874231 –d advert-train.csv –ds advert-info 
-sl 5 -p –t 100 -o advert-model

其中,

-Dmapred.max.split.size应指定Hadoop最大值。每个分区的大小应该是数据集大小的1/10

-sl用于指定随机选择的变量数

-p告诉mahout使用部分实现

其余变量应该没问题。