现在,我们使用Solr作为全文索引,其中文档的所有字段都已编制索引但未存储。 有几百万个文档,索引大小是50 GB。平均查询时间约为100毫秒。
要使用突出显示等功能,我们正考虑:增加商店文字。但是,这可能会使索引文件的大小翻倍。
我知道索引大小和查询时间之间绝对没有(线性)关系。在因子10上升文档导致查询时间几乎没有差异。
但是,系统(Solr / Lucene / Linux / ...)必须处理更多信息 - 索引文件(例如)基于更多的I节点,依此类推。
所以我确定,与索引大小相关的查询时间会受到影响。 (但是:这明显吗?)
第一: 你觉得,我是对的吗? 您是否有关于有/没有存储文本的索引大小和搜索速度的经验? 通过存储文件来炸毁索引是否明智和合理?
第二: 你知道,Solr / Lucene如何处理存储的文本?也许在单独的文件? (这样对简单搜索没有影响,不需要存储文本!?)
谢谢。
答案 0 :(得分:1)
是的,如果您存储大字段,则索引会增长,但如果您想突出显示它们,则没有其他方法。我不认为速度会降低那么多,可能只是因为你需要下载更多数据检索结果,但它并不相关。
关于lucene索引格式和索引中的不同文件,您可以查看here:存储的字段存储在特定文件中。