我有一个弹性搜索群集,它根据推文的日期对不同索引中的推特数据进行索引。
用于400万条推文的磁盘空间大约为5GB。
对存储的字段进行一些更改并使用其他信息丰富数据后,200万个文档的新索引使用大约8GB。
旧的和新的映射是相同的,唯一的区别是旧的索引在某些字段中没有数据。
我预计存储空间使用量会增加,但这是过多的。我有一个理论认为边界框字段可能是使用大部分空间的字段。
我已经查看了API,并且看不到会显示单个字段使用的磁盘空间量的API。有没有办法获取这些信息,以便我可以比较两个索引?
我对fielddata大小不感兴趣。我需要知道磁盘上用于单个字段的术语索引的空间。
答案 0 :(得分:0)
没有内置解决方案,但是您可以创建索引副本,并且只包含几个想要大小的字段。
这应该给你一个很好的电话号码。
来自https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-reindex.html:
POST _reindex
{
"source": {
"index": "twitter",
"_source": ["user", "_doc"]
},
"dest": {
"index": "new_twitter"
}
}