从理论上讲,索引版本的文档总是占用比文档实际版本更少的内存吗?

时间:2017-03-07 21:53:30

标签: search indexing inverted-index

对于这个讨论,我们可以将索引的类型限制为倒排索引。

E.g。让我们说这个特定的网页被一些网络爬虫(比如Nutch)抓取,然后它被索引成Solr。唯一被抓取的字段是此问题的标题和正文。现在,这两个字段中的文本存在一定的内存大小。但是当它们被索引时,它们可能会或可能不会占用与实际内容相同的内存大小。这个文档的索引版本是否有可能占用比文档原始大小更多的内存,或者它是特定于实现的?

0 个答案:

没有答案