PDF文本提取:获取奇怪的文本元素

时间:2014-04-16 07:47:04

标签: pdf itext pdfbox text-extraction

我试图从pdfs获取文本。现在我遇到了一个奇怪的问题。

虽然pdf在任何阅读器中看起来都很棒,但每个pdf2text软件都无法提取整个文本。我查看了iTextpdfboxPDFXplorer的结构。这些工具都没有能够显示pdf的所有显示文本。

从本文档的外观我假设pdf是从填充文本的模板生成的。我能够提取大部分填充的文本,但不能提取模板的文本元素。

首先我认为它可能是一个图形元素,但我能够复制&从阅读器粘贴文本。因此,文档中必须有文本。

这是一个奇怪的文本元素的示例:

BT 65.38 764.23 Td /F0201 7.16 Tf ( !"#$%&'\(#\)*+,+$#-\).#$/#\)012\)34533\)*6-'\(#-7\)8#9,&'\(:!-;) Tj ET
BT 65.38 31.47 Td /F0201 5.37 Tf (<#-,$!:#\)=>?\)3?\)@3AB4) Tj ET
BT 65.38 38.73 Td /F0101 5.37 Tf (&'\('\)*+) Tj ET
BT 65.38 53.24 Td /F0101 5.37 Tf (,-./-+/0123\)4) Tj ET

虽然大部分填写的文字都是明文:

BT 163.96 491.22 Td /F0301 12.00 Tf (6030919) Tj ET
BT 70.87 492.07 Td /F0301 12.00 Tf (BESTELLNR.:) Tj ET
BT 235.53 491.22 Td /F0301 12.00 Tf (AEND.-NR.:) Tj ET
BT 342.74 491.22 Td /F0301 12.00 Tf (WAEHRUNG:) Tj ET

我阅读了pdf参考,但我没有找到任何关于如何解释这些奇怪的文本元素的线索。

欢迎任何线索和提示。

提前致谢,

丹尼

0 个答案:

没有答案