在flow stormcrawler中禁用子域

时间:2018-03-21 13:18:32

标签: web-crawler stormcrawler

我们如何在流媒体中禁用注入子域? 现在,如果我们在流中注入www.ebay.com而不是我们有子域名页面:my.ebay.comcommunity.ebay.com,...

1 个答案:

答案 0 :(得分:1)

您可以将HostURLFilter配置为排除种子主机名之外的网址,方法是在 urlfilters.json 中将 ignoreOutsideHost 设置为true

{
  "class": "com.digitalpebble.stormcrawler.filtering.host.HostURLFilter",
  "name": "HostURLFilter",
  "params": {
    "ignoreOutsideHost": true,
    "ignoreOutsideDomain": true
  }
}