标签: web-crawler apache-storm stormcrawler
我遇到了快速的网址过滤器。它提供了一些选项,例如将过滤器应用于特定域。有人可以打电话给它更多有关它的用法以及如何在url filter.json中配置它的详细信息吗?
答案 0 :(得分:1)
可以像其他任何过滤器一样,在 urlfilters.json 中配置过滤器
{ "class": "com.digitalpebble.stormcrawler.filtering.regex.FastURLFilter", "name": "FastURLFilter", "params": { "file": "fast.urlfilter.json" } }
file参数是可选参数,默认情况下采用上面给出的值。
有关详细信息,请参见JAVADOC,BLOG和WIKI。