如何在StormCrawler中使用快速网址过滤器?

时间:2018-09-17 07:40:01

标签: web-crawler apache-storm stormcrawler

我遇到了快速的网址过滤器。它提供了一些选项,例如将过滤器应用于特定域。有人可以打电话给它更多有关它的用法以及如何在url filter.json中配置它的详细信息吗?

1 个答案:

答案 0 :(得分:1)

可以像其他任何过滤器一样,在 urlfilters.json 中配置过滤器

 {
  "class": "com.digitalpebble.stormcrawler.filtering.regex.FastURLFilter",
  "name": "FastURLFilter",
  "params": {
    "file": "fast.urlfilter.json"
  }
}

file参数是可选参数,默认情况下采用上面给出的值。

有关详细信息,请参见JAVADOCBLOGWIKI