惊喜!我有另一个Apache Nutch v1.5问题。因此,在通过Nutch将我们的网站抓取并索引到Solr时,我们需要能够排除任何属于特定路径的内容。
所以说我们有我们的网站:http://oursite.com/
我们有一条路径,我们不希望在http://oursite.com/private/
索引
http://oursite.com/
文件中有seed.txt
,+^http://www.oursite.com/([a-z0-9\-A-Z]*\/)*
文件中有regex-urlfilter.txt
我认为在-.*/private/.*
文件中放置:regex-urlfilter.txt
会排除该路径及其下的任何内容,但抓取工具仍然会在/private/
路径下获取和索引内容。
我需要在服务器上进行某种重启,比如Solr?或者我的正则表达式实际上不是正确的方法吗?
感谢
答案 0 :(得分:1)
我的猜测是第一个正则表达式接受了网址,第二个网格不再被检查。如果要拒绝URL,请将其正则表达式放在列表中。