确定PDF页面上的“感兴趣的框”

时间:2009-06-17 21:07:58

标签: pdf layout bounding-box

我希望能够确定PDF页面上文本,图像和路径区域的边界框,类似于此处显示的内容:

http://www.windjack.com/products/screenshot/pdfcanscreenshot2.html

查看PDF规范,我可以看到如何确定路径和图像的边界框,但我看不到如何到达它们的文本。我是否需要手动计算,从字体大小确定字形的高度和宽度等,还是有更简单的方法?

1 个答案:

答案 0 :(得分:2)

您可以从"How do I get character offset information from a pdf document?"的解决方案开始,这将为您提供文档中字符和/或子字符串的x,y,宽度和高度。从那里开始,更难的部分是将角色组绑定到空间上不同的区域。无法保证页面上的空间分组文本在文件格式的语法中彼此接近...