我试图从pdfs获取文本。现在我遇到了一个奇怪的问题。
虽然pdf在任何阅读器中看起来都很棒,但每个pdf2text
软件都无法提取整个文本。我查看了iText
,pdfbox
和PDFXplorer
的结构。这些工具都没有能够显示pdf的所有显示文本。
从本文档的外观我假设pdf是从填充文本的模板生成的。我能够提取大部分填充的文本,但不能提取模板的文本元素。
首先我认为它可能是一个图形元素,但我能够复制&从阅读器粘贴文本。因此,文档中必须有文本。
这是一个奇怪的文本元素的示例:
BT 65.38 764.23 Td /F0201 7.16 Tf ( !"#$%&'\(#\)*+,+$#-\).#$/#\)012\)34533\)*6-'\(#-7\)8#9,&'\(:!-;) Tj ET
BT 65.38 31.47 Td /F0201 5.37 Tf (<#-,$!:#\)=>?\)3?\)@3AB4) Tj ET
BT 65.38 38.73 Td /F0101 5.37 Tf (&'\('\)*+) Tj ET
BT 65.38 53.24 Td /F0101 5.37 Tf (,-./-+/0123\)4) Tj ET
虽然大部分填写的文字都是明文:
BT 163.96 491.22 Td /F0301 12.00 Tf (6030919) Tj ET
BT 70.87 492.07 Td /F0301 12.00 Tf (BESTELLNR.:) Tj ET
BT 235.53 491.22 Td /F0301 12.00 Tf (AEND.-NR.:) Tj ET
BT 342.74 491.22 Td /F0301 12.00 Tf (WAEHRUNG:) Tj ET
我阅读了pdf参考,但我没有找到任何关于如何解释这些奇怪的文本元素的线索。
欢迎任何线索和提示。
提前致谢,
丹尼