标签: elasticsearch lucene search-engine
我们知道使用Lucene或着名搜索引擎Google的弹性搜索将保留索引文档中单词的偏移距离,以获得更好的结果。上述两种软件都对非常大量的数据进行索引和搜索。什么是内部高效和快速的特殊索引(或数据结构)或算法?那么成本(时间和空间)呢?是否有网页或文档解释了Google或elasticsearch(lucene)使用的基于偏移距离的算法?下面是我想自己制作的图片。
答案 0 :(得分:0)
检查TF-IDF https://en.wikipedia.org/wiki/Tf-idf 这就是它。