nutch抓取脚本中的自定义选项无效

时间:2016-09-29 11:08:47

标签: elasticsearch nutch

我试图在 bin / crawl 脚本中提供自定义选项并遇到问题。我在nutch中给出了一个自定义配置,以忽略我的抓取命令中的外部外链,如: -

bin / crawl -i -D elastic.index = test -D db.ignore.external.links = true urls / CrawlTest / 3

但这不起作用。然后我在nutch-site.xml中设置此属性然后它正在工作。

然后我尝试设置一个自定义配置,将数据索引到特定的弹性索引,而不是nutch-site.xml中给出的bin / crawl中的java选项。令我惊讶的是它正在发挥作用。 我使用的命令: -

bin / crawl -i -D elastic.index = test urls / CrawlTest / 3

所以我想知道为什么我的第一个命令不起作用?我错过了什么。请帮忙。

1 个答案:

答案 0 :(得分:2)

从进一步的研究中我得到了答案。第一个命令不起作用,因为hadoop没有检测到它作为参数。它应该从nutch配置中读取。