应用错误收集

将抓取限制为种子网址的子页面

时间：2018-07-18 20:18:51

标签： web-crawler stormcrawler

我有这个设置，它根据种子来爬取页面

{ “ class”：“ com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”， “ name”：“ HostURLFilter”， “参数”：{ “ ignoreOutsideHost”：否， “ ignoreOutsideDomain”：true } }

但是，如何限制种子的子页面。例如。如果使用上面的设置，我的种子为“ https://www.test.com/”，那么爬网程序还将对“ https://stg.test.com/”及其子页面等网址进行爬网并添加

如何将抓取限制为“ https://www.test.com/”以及该种子的子页面，例如“ https://www.test.com/test1”，“ https://www.test.com/test2”等。

TIA。

1 个答案:

答案 0 :(得分：0)

只需在HostUrlFilter的配置中将 ignoreOutsideHost 设置为true。