使用种子网址更新主机字段名称

时间:2018-11-06 22:15:34

标签: elasticsearch web-crawler stormcrawler

我正在使用Storm Crawler 1.10和ES 6.4.2。我在种子文件中插入了两个网址,我希望根据主机名过滤结果。有什么方法可以告诉搜寻器将种子网址存储在主机字段中。

例如,我的种子网址为 https://abce.com/ghihttps://abce.com/jklhttps://abce.com/mno 。需要基于https://abce.com/ghi过滤结果。尝试使用弹性搜索通配符过滤器,但结果不准确。

1 个答案:

答案 0 :(得分:1)

主机字段用于分片并自动创建。只需为其创建一个新的可搜索字段。

您可以在种子文件中为每个条目添加自定义元数据,例如   https://abce.com/ghi seed = ghi

您需要指定元数据传输的密钥,以便出站获取它:

Image.fromarray(f).show()

然后配置索引器,以便为其创建一个字段

 metadata.transfer:
   - seed

最后,您可能需要优化ES模式并将该字段作为关键字

 indexer.md.mapping:
  - seed=seed