我有多个(30个)PDF文件,每个文件包含48-96页。所有页面的布局都是相同的,只有其他内容(数字,图形)。
背景:这些页面是光纤电缆测量的PDF报告,我必须通过电缆的衰减对它们进行分类。由于保密问题,我不幸不能给出一个示例文件。
为了验证这些报告,我们正在做一些控制样本,这就是为什么我需要对报告进行排序。现在的问题是:如何将所有pdf文件中所有页面的非常具体的部分导出为某种可以排序的格式?
如前所述,值非常具体,其中值位于页面上。它也已经被“解析”了,所以它在PDF文件中可以“作为文本”使用,因此不会被扫描,也不需要OCR。
感谢任何帮助。我目前不知道如何解决这个问题,它可能是一些类似的东西,或者一种编程方法来解决这个问题。
答案 0 :(得分:4)
正如您在对原始问题的评论中指出的那样,您已准备好编写解决方案。我建议使用Java和iText PDF库。它允许您从文档中提取文本,只要文本实际上是可提取的(您实际上可以将字形放入PDF但将字形从字形中删除到字符)。
您可以在ExtractPageContent* samples for chapter 15的iText in Action — 2nd Edition中找到使用iText提取PDF文本的示例代码。特别是ExtractPageContentArea对你的案件很感兴趣。
基本上你只需要取样并概括它也可以从页面上的多个区域中提取文本。