Stormcrawler-es.status.filterQuery如何工作?

时间:2019-04-25 19:54:54

标签: elasticsearch web-crawler stormcrawler

我正在使用stormcrawler将数据放入某些Elasticsearch索引中,并且在状态索引中有一堆URL,它们具有各种状态-DISCOVERED,FETCHED,ERROR等。

我想知道是否可以告诉StormCrawler只是爬取https并显示以下状态的URL:DISCOVERED,是否真的可行。我将es-conf.yaml设置如下:

es.status.filterQuery: "-(url:https* AND status:DISCOVERED)"

对吗? SC如何利用es.status.filterQuery?是否运行搜索并将该值用作过滤器,以仅检索要提取的适用文档?

1 个答案:

答案 0 :(得分:1)

请参见code of the AggregationSpout

  

SC如何使用es.status.filterQuery?它运行   搜索并将该值用作过滤器以仅检索适用的值   要提取的文件?

是的,它过滤发送到ES分片的查询。例如,这对于处理爬网的子集很有用。

这是一个肯定的过滤器,即文档必须与查询匹配才能被检索;您需要删除-才能执行您描述的操作。