我有这个设置,它根据种子来爬取页面
{ “ class”:“ com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”, “ name”:“ HostURLFilter”, “参数”:{ “ ignoreOutsideHost”:否, “ ignoreOutsideDomain”:true } }
但是,如何限制种子的子页面。 例如。如果使用上面的设置,我的种子为“ https://www.test.com/”,那么爬网程序还将对“ https://stg.test.com/”及其子页面等网址进行爬网并添加
如何将抓取限制为“ https://www.test.com/”以及该种子的子页面,例如“ https://www.test.com/test1”,“ https://www.test.com/test2”等。
TIA。
答案 0 :(得分:0)
只需在HostUrlFilter的配置中将 ignoreOutsideHost 设置为true。