如何搜索PDF中的文本并将该页面转换为图像并裁剪?

时间:2019-06-04 16:26:15

标签: python parsing pdf text graph

我需要从PDF中提取图像(图形)。由于大多数情况下,这些图不是以PDF格式存储为图像,而是由文本,线条,条形图,彩色背景等组成的组合。

我想到了一个计划来完成工作,并想与这里的专家一起评估我的计划(我对解析PDF完全陌生。)

计划:

a)搜索关键字并获取PDF的页码(例如,下图所示的“员工更替”),

b)使用python pdf2image库生成页面的图像,

c)运行python裁剪函数以获取仅是图形部分的部分。

示例:This is the link打开一个PDF以供下载。我想在第7页的底部获得图形,就像下面的图片一样。

enter image description here

如何处理?我想更喜欢使用Python进行编码。

0 个答案:

没有答案