当主机名具有portnumber时允许Nutch

时间:2016-02-05 15:36:41

标签: solr web-crawler nutch

我正在使用nutch将数据推送并索引到solr。在nutch中,我已将 abc.com:85 添加到 domain-urlfilter.txt ,将 + ^ http://abc\.com\:85 添加到正则表达式-urlfilter.txt

问题是,nutch没有索引数据并且正在抛出此消息过滤器拒绝的网址总数:1

在url中,我需要portnumber,这个配置已经完成。

您能否告诉我如何使用端口号进行nutch工作:85添加。

1 个答案:

答案 0 :(得分:0)

问题是语法:+^http://abc\.com\:85不正确。请在此处查看语法:Nutch regex-urlfilter syntax

希望这有帮助,

Le Quoc Do