使用Storm Crawler 1.11和Elastic Search 6.5.x并尝试应用 fastfilterfilter 。 “第一个过滤器”工作正常,其余过滤器仅对父网址进行爬网。我的配置中是否缺少任何内容,或者需要进行任何更改以对所有五个URL进行爬网。
我的种子网址
https://www.abce.com/ghi/ seed=ghi
https://www.abce.com/jkl/ seed=jkl
https://www.abce.com/mno/ seed=mno
https://mnop.edu/ seed=mnop
https://jqkl.edu/ seed=jqkl
fasturlfilter.json
[
{
"scope":"domain:abce.com",
"patterns":[
"AllowPath /ghi/",
"AllowPath /jkl/",
"AllowPath /mno/",
"DenyPath .+"
]
},
{
"scope":"domain:mnop.edu",
"patterns":[
"AllowPath /",
"DenyPath .+"
]
},
{
"scope":"domain:jqkl.edu",
"patterns":[
"AllowPath /",
"DenyPath .+"
]
}
]
答案 0 :(得分:0)
我使用上面的URL和规则编写了一个单元测试,但没有发现任何问题。请检查是否没有其他阻止添加链接的过滤器。