平均pdf / word文档的文本百分比是多少?

时间:2015-12-10 00:09:21

标签: pdf solr lucene

问题是,我有超过1TB个需要使用solr索引的文档,其中大部分是pdf / word,我会说80%变成800GB需要索引的数据,但我确实认为我不需要带800GB的光盘来存储索引。所以,我的问题是,平均pdf / word文档的文本百分比是多少?有了这些信息,我可以估算磁盘大小。

2 个答案:

答案 0 :(得分:0)

为了索引PDFs / MSWords,Solr使用了Apache Tika。如果您计划进行如此繁重的索引,实际上您可能希望在独立客户端中使用Tika,并仅将提取的部分发送给Solr。这将更快,对Solr本身影响更小,因为提取正在其过程中发生。

这意味着作为该程序的第一个版本,您可以编写一些使用Tika来阅读文档并只计算您获得的提取文件大小的内容。没有存储它。根据源文档的代表性部分运行它,您应该获得真正的百分比。

答案 1 :(得分:0)

无法访问代表性的文件集,几乎无法估计文件大小的哪个百分比代表文本。

通常,如果有大量图片或大量图形非文本内容,百分比通常只是文件大小的百分之几。

现在,为了了解您的文件,我可以提出两种方法:

  • 使用Adobe Acrobat Pro,对几个PDF文件执行“另存为...”,在“另存为...”对话框中设置“优化的PDF”选项,然后转到“设置... “并在设置对话框中单击”审核空间使用情况....“ - 您将获得一个对话框,指示PDF中几种类型数据的大小,例如图像,开销,元数据等。虽然它没有列出文本,但“内容流”的相对贡献将是文本大小的一个很好的指标(而内容流可以绘制很多不同的东西,而不仅仅是文本,它们通常也是Flate [类似于ZIP压缩的过滤器压缩]
  • 使用您喜欢的任何体面的PDF查看器,选择其中的所有文本并将其保存为纯文本文件;根据您使用的工具,您可以在命令行上自动执行此操作,或者编写一个小程序,例如:使用PDFBox

免责声明:我实际上无法帮助处理Word文件,但仅从Word中提取原始文本应该会为您提供类似的指示性信息。