nutch - 荷兰人在EMR上运行

时间：2013-07-21 22:17:13

标签： nutch amazon-emr

请有人指导我走向正确的方向。我想让Nutch在亚马逊EMR上工作。到目前为止，我可以在本地运行nutch并使用随附的shell脚本启动它。

但是，在亚马逊上，我需要指定一个JAR位置和选项。我可以通过自己编译来获取jar。但是，就启动选项而言，我不知道从哪里开始。

此外，1.x和Nutch 2.0之间的主要区别是什么。是否建议EMR优先于另一个？

答案 0 :(得分：0)

如果你还在寻找答案：

当您构建Nutch时，您将在deploy目录中看到一个作业jar，将其上传到S3并在设置EMR作业流时引用它作为自定义Jar。

然后，您可以添加步骤并提及主类，例如：org.apache.nutch.crawl.Crawl和您想要的参数。这不会改变它在local模式下的工作方式。例如：urls -dir myCrawl -threads 10 -depth 5 -topN 1000。

如果您打算使用Crawl.java之外的其他内容，可以通过查看bin/nutch脚本来了解要使用的主类。