我对ngram配置有疑问。弹性搜索文档说
将min_gram和max_gram设置为相同的值通常是有意义的。
或许,最小和最大克数之间的差异太大会增加索引存储量。
但是有很多博客使用max_gram作为8或20来获得更准确的结果。
我在两者之间感到困惑。哪个应该是使用的? 两者的利弊是什么?
注意:我的用例涉及文章的索引。文章内容通常为150KB。
由于
答案 0 :(得分:1)
分析您的搜索查询。查找经常出现哪种类型的类似查询,最大搜索长度和最小长度是什么,是否区分大小写?哪个字段,哪个数据相似?如果数据相似,则不会占用更多存储空间。
您需要分析您的数据及其之间的关系。分析您的查询行为。了解您的搜索查询。掌握了所有这些信息后,您可以做出更好的决策,或者找到解决问题的更好方法。