是否有空字段对lucene索引不利?

时间:2016-11-15 03:49:47

标签: elasticsearch lucene

下面有

ES doc on mappings个州

  

类型不太适合完全不同类型的数据。如果您的两种类型具有互斥的字段集,则意味着您的索引的一半将包含"空"值(字段将是稀疏的),这最终将导致性能问题。在这些情况下,使用两个独立的指数要好得多。

我想知道我应该怎么做到这一点。

假设我有三种类型的文档,每种文档共享相同的60-70%的字段,其余各种类型都是唯一的。

我应该将每种类型放在单独的索引中吗? 或者一个单一的索引也可以,这意味着不会有大量的存储浪费或搜索或索引操作上的任何明显的性能损失?

基本上我正在寻找任何信息来确认或反驳上述报价。

1 个答案:

答案 0 :(得分:1)

如果您的类型重叠60-70%,那么ES将会很好,这听起来并不相互排斥'一点都不请注意:

  1. 在ES的未来版本中,improve将会发生事情
  2. 如果您不需要它们,可以按照建议here
  3. 禁用规范和doc_values