以PDF格式获取文本字段的尺寸和坐标

时间:2011-02-05 23:37:19

标签: php pdf

是否可以使用PHP或Linux库获取PDF文档中所有文本字段的X / Y坐标和高度/宽度?我正在使用PDFTK提取PDF中的所有文本字段,但它不提供坐标和/或尺寸信息。如果没有,是否可以遍历PDF文档并计算文本字段的x,y和高度/宽度数据?

2 个答案:

答案 0 :(得分:-1)

这是可能的,但几乎不可行。

您可以使用FPDI在PHP中打开PDF文档。它在内存中生成PDF对象的抽象树。 TCPDF和FPDF可以将其保存回来。

然而,遍历所述树并找到正确的属性是非常的。 (我意外地是动词。)

现在PDF格式实际上是人类可读的。它肯定会包含可读格式的坐标(主要是在IIRC点)。如果你只知道在哪里看,你可能会用一个简单的正则表达式来发现它。某些节点只需要进行gzuncompress()编辑,您无需修改​​文档或将其保存回来。因此,尝试使用FPDI和print_r()来设计策略。

答案 1 :(得分:-1)

是的,这不是太难。我所知道的最好的工具是pdfminer。它是python,但是如果你不想使用python,你可以只用xml格式转储pdf信息,用你选择的武器解析它:)如果你遇到麻烦就回复:)