将抓取限制为种子网址的子页面

时间:2018-07-18 20:18:51

标签: web-crawler stormcrawler

我有这个设置,它根据种子来爬取页面


  

{         “ class”:“ com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”,         “ name”:“ HostURLFilter”,         “参数”:{           “ ignoreOutsideHost”:否,           “ ignoreOutsideDomain”:true         }       }


但是,如何限制种子的子页面。 例如。如果使用上面的设置,我的种子为“ https://www.test.com/”,那么爬网程序还将对“ https://stg.test.com/”及其子页面等网址进行爬网并添加

如何将抓取限制为“ https://www.test.com/”以及该种子的子页面,例如“ https://www.test.com/test1”,“ https://www.test.com/test2”等。

TIA。

1 个答案:

答案 0 :(得分:0)

只需在HostUrlFilter的配置中将 ignoreOutsideHost 设置为true。