Solr使用什么技术来索引文件?

时间:2016-12-13 11:19:26

标签: indexing solr lucene search-engine

如您所知,搜索引擎的索引文档有不同的技术。 如倒排索引,分布式动态索引,语义索引,NGram索引,上下文索引,大数据,多语索引等。 我现在和Solr一起工作。我想知道Solr使用哪种技术来索引文档以及Solr(或Lucene)如何使用这些技术?

2 个答案:

答案 0 :(得分:1)

首先 - 这是一个非常广泛的领域,您列出的大多数术语都不是索引类型。它们描述了可以支持的产品功能(或流行语),无论索引是如何在场景后构建的。

Solr使用Lucene--其核心是倒排索引。

  

索引存储有关术语的统计信息,以使基于术语的搜索更有效。 Lucene的指数属于被称为倒排指数的指数族。这是因为它可以列出包含它的文档。这是自然关系的反转,其中文档列出术语。

还有许多支持结构可以使Lucene对某些查询和功能更加高效。关于这样的特征是DocValues support - 可以被描述为具有文档的列导向存储 - >术语映射可以加速像刻面这样的事情。

您可以在Codecs API Doc for Lucene 6.3.0中看到大多数这些支持功能。由于它是一个非常大的列表,我将其从评论本身中删除。

答案 1 :(得分:1)

回答哪些技术 - 在幕后, Solr 使用 Lucene API,Lucene索引技术是 - 反向索引 STRONG>。 Solr只是一个带有基础设施包装器的完整应用程序,但底层文档索引技术是Lucene API提供的技术。

Solr(或Lucene)如何使用这些技术?

Here是对初学者的Lucene索引的一个很好的概述。它只是一个非常简单的概述,但解释了基础知识。

由于Solr是一种产品,因此大多数可用的文档都是功能性的(不解释实际的索引技术等),并且由于Lucene的原始用法很少,因此Lucene文档无法达到标准,因此大多数情况下,需要挖掘Lucene代码或API文档以了解Lucene的工作。

希望它有所帮助!!