FastUrlFilter不适用于多个域

时间:2018-11-17 17:31:21

标签: web-crawler stormcrawler

使用Storm Crawler 1.11和Elastic Search 6.5.x并尝试应用 fastfilterfilter 。 “第一个过滤器”工作正常,其余过滤器仅对父网址进行爬网。我的配置中是否缺少任何内容,或者需要进行任何更改以对所有五个URL进行爬网。

我的种子网址

https://www.abce.com/ghi/   seed=ghi
https://www.abce.com/jkl/   seed=jkl
https://www.abce.com/mno/   seed=mno
https://mnop.edu/   seed=mnop
https://jqkl.edu/   seed=jqkl

fasturlfilter.json

[  
   {  
      "scope":"domain:abce.com",
      "patterns":[  
         "AllowPath /ghi/",
         "AllowPath /jkl/",
         "AllowPath /mno/",
         "DenyPath .+"
      ]
   },
   {  
      "scope":"domain:mnop.edu",
      "patterns":[  
      "AllowPath /",
         "DenyPath .+"
      ]
   },
      {  
      "scope":"domain:jqkl.edu",
      "patterns":[ 
      "AllowPath /",
         "DenyPath .+"
      ]
   }

]

1 个答案:

答案 0 :(得分:0)

我使用上面的URL和规则编写了一个单元测试,但没有发现任何问题。请检查是否没有其他阻止添加链接的过滤器。