问题是,我有超过1TB
个需要使用solr索引的文档,其中大部分是pdf / word,我会说80%
变成800GB
需要索引的数据,但我确实认为我不需要带800GB
的光盘来存储索引。所以,我的问题是,平均pdf / word文档的文本百分比是多少?有了这些信息,我可以估算磁盘大小。
答案 0 :(得分:0)
为了索引PDFs / MSWords,Solr使用了Apache Tika。如果您计划进行如此繁重的索引,实际上您可能希望在独立客户端中使用Tika,并仅将提取的部分发送给Solr。这将更快,对Solr本身影响更小,因为提取正在其过程中发生。
这意味着作为该程序的第一个版本,您可以编写一些使用Tika来阅读文档并只计算您获得的提取文件大小的内容。没有存储它。根据源文档的代表性部分运行它,您应该获得真正的百分比。
答案 1 :(得分:0)
无法访问代表性的文件集,几乎无法估计文件大小的哪个百分比代表文本。
通常,如果有大量图片或大量图形非文本内容,百分比通常只是文件大小的百分之几。
现在,为了了解您的文件,我可以提出两种方法:
免责声明:我实际上无法帮助处理Word文件,但仅从Word中提取原始文本应该会为您提供类似的指示性信息。