荷兰人在EMR上运行

时间:2013-07-21 22:17:13

标签: nutch amazon-emr

请有人指导我走向正确的方向。我想让Nutch在亚马逊EMR上工作。到目前为止,我可以在本地运行nutch并使用随附的shell脚本启动它。

但是,在亚马逊上,我需要指定一个JAR位置和选项。我可以通过自己编译来获取jar。但是,就启动选项而言,我不知道从哪里开始。

此外,1.x和Nutch 2.0之间的主要区别是什么。是否建议EMR优先于另一个?

1 个答案:

答案 0 :(得分:0)

如果你还在寻找答案:

当您构建Nutch时,您将在deploy目录中看到一个作业jar,将其上传到S3并在设置EMR作业流时引用它作为自定义Jar。

然后,您可以添加步骤并提及主类,例如:org.apache.nutch.crawl.Crawl和您想要的参数。这不会改变它在local模式下的工作方式。例如:urls -dir myCrawl -threads 10 -depth 5 -topN 1000

如果您打算使用Crawl.java之外的其他内容,可以通过查看bin/nutch脚本来了解要使用的主类。