标签: solr web-crawler nutch
我正在使用nutch将数据推送并索引到solr。在nutch中,我已将 abc.com:85 添加到 domain-urlfilter.txt ,将 + ^ http://abc\.com\:85 添加到正则表达式-urlfilter.txt
问题是,nutch没有索引数据并且正在抛出此消息过滤器拒绝的网址总数:1
在url中,我需要portnumber,这个配置已经完成。
您能否告诉我如何使用端口号进行nutch工作:85添加。
答案 0 :(得分:0)
问题是语法:+^http://abc\.com\:85不正确。请在此处查看语法:Nutch regex-urlfilter syntax
+^http://abc\.com\:85
希望这有帮助,
Le Quoc Do