不跟踪StormCrawler中的url.path会有什么影响?

时间:2018-05-01 15:40:58

标签: web-crawler stormcrawler

我们正在使用StormCrawler并将我们的Status索引存储在elasticsearch中。这个索引变得非常大(差不多有30亿个文档!),所以碎片对备份等也很大。

我正在考虑删除文档中的url.path元数据数组元素。 It looks like我可以使用metadata.track.path停用它。

如果我不再将其编入索引并删除我的内容,会有什么影响?

1 个答案:

答案 0 :(得分:1)

如果您对跟踪特定网址的搜索方式不感兴趣,那么您可以通过将 metadata.track.path 设置为false来节省空间(以及一些时间) 。您可以立即执行此操作,并且任何新文档都不会具有相应的字段。

不确定你的意思是删除我拥有的内容' - 您不能只删除一个字段,您必须删除并重新索引整个文档。

通常,请确保仅索引所需的字段。请参阅this customised version of the ES index init script其中'主机名'已被移出带有元数据前缀的字段,以便进行搜索。可用选项取决于您使用的Elasticsearch的版本。