请有人指导我走向正确的方向。我想让Nutch在亚马逊EMR上工作。到目前为止,我可以在本地运行nutch并使用随附的shell脚本启动它。
但是,在亚马逊上,我需要指定一个JAR位置和选项。我可以通过自己编译来获取jar。但是,就启动选项而言,我不知道从哪里开始。
此外,1.x和Nutch 2.0之间的主要区别是什么。是否建议EMR优先于另一个?
答案 0 :(得分:0)
如果你还在寻找答案:
当您构建Nutch时,您将在deploy目录中看到一个作业jar,将其上传到S3并在设置EMR作业流时引用它作为自定义Jar。
然后,您可以添加步骤并提及主类,例如:org.apache.nutch.crawl.Crawl
和您想要的参数。这不会改变它在local
模式下的工作方式。例如:urls -dir myCrawl -threads 10 -depth 5 -topN 1000
。
如果您打算使用Crawl.java之外的其他内容,可以通过查看bin/nutch
脚本来了解要使用的主类。