是否有一种简单的方法来查找PDF中的特定文本,将其突出显示并打印或保存到新文件?

时间:2018-09-02 04:45:35

标签: python-3.x pdf-scraping

所以我希望做的是在PDF格式的建筑布局图中自动绘制桌子位置的过程。

我与处理IT设备请求的部署团队合作。基本上,我们会收到包含用户名及其在建筑物中位置(即楼层号和办公桌位置号)列表的请求。

我当前的例行工作是打印出每层pdf平面图的副本,并在用笔根据请求的高低优先级计划当天路线之前,用笔在地图上手动突出显示所有办公桌位置..当我们收到大量请求时,这可能有点乏味-所以我想知道我是否可以只向Python提供办公桌位置的列表,并让它生成一个PDF,其中所有位置已经为我突出显示了-可能如果可能的话,向页面添加一些其他注释:)

1 个答案:

答案 0 :(得分:1)

是的,这是可能的。我已将其部署用于工作,因此无法共享代码。

三种方法:

1. cv2模板匹配(问题是您需要将每个办公桌设置为模板)

2. pytesseract(用于OCR),具有“猜测和检查”算法,可缩小字段范围,模糊文本匹配可处理较差的OCR质量(这很慢-每张办公桌要花几分钟的时间)。

3.如果桌子是按逻辑编号的,则可以简单地创建一个带有“相关”桌子偏移量的坐标词典(这是最快捷,最准确的方法)