有没有办法使用Perl在PDF的特定区域内进行文本搜索?

时间:2012-12-12 19:53:18

标签: perl pdf

我有由PDFcreator创建的PDF。每个多页PDF的第一页都有需要识别的邮寄地址。有没有办法在PDF的特定区域内进行文本搜索?

我找到了CAM::PDFpdftotext,但没有找到将搜索限制在特定区域的方法。我主要关注的是准确性,因为同一PDF中可能会出现不同的地址。搜索整个PDF也可能太慢了。

1 个答案:

答案 0 :(得分:0)

Pdftotext确实可以完成您想要做的事情。我很相信CAM :: PDF也可以,但我还没有使用该工具返回过去的坐标信息。

我会在整个页面上运行pdftotext,保存xml输出,然后梳理结果。它应该为页面上的每个单词提供xMin / xMax / yMin / yMax值。然后,您可以使用这些坐标来构建仅包含在预定边界内的那些单词的列表。

顺利识别多行地址可能会带来挑战,尤其是在您定义的区域内可能存在任何非地址文本时。