我正在尝试使用LucidWorks(http://www.lucidimagination.com/products/lucidworks-search-platform)作为我的组织内部网的搜索引擎。 我希望它能够从各种数据源(web& wiki,文件系统,Subversion存储库)索引各种文档类型(Office格式,PDF,网页)。 到目前为止,我尝试索引几个网站,目录&存储库(大约500K文档,总大小约为50GB) - 索引的大小为155GB。
这合理吗?索引应该占用比数据本身更多的存储空间吗?数据大小与索引大小比率的合理拇指规则是什么?
答案 0 :(得分:0)
没有合理的索引大小,基本上取决于你拥有的数据。
理想情况下应该更少,但没有拇指规则。
但是,对于索引大小和数据大小,取决于您对数据建立索引的方式 许多因素会决定并影响您的指数大小 索引中的大部分空间都由存储数据字段使用 如果您正在索引文档中的数据并且存储了所有内容,那么索引大小肯定会增长 对索引字段属性进行微调也有助于节省空间 您可能想要重新访问需要编制索引的字段以及需要存储的字段 此外,您是否使用大量复制字段来复制数据或维护重复数据。 优化也可能有所帮助。