我需要从PDF中提取图像(图形)。由于大多数情况下,这些图不是以PDF格式存储为图像,而是由文本,线条,条形图,彩色背景等组成的组合。
我想到了一个计划来完成工作,并想与这里的专家一起评估我的计划(我对解析PDF完全陌生。)
计划:
a)搜索关键字并获取PDF的页码(例如,下图所示的“员工更替”),
b)使用python pdf2image库生成页面的图像,
c)运行python裁剪函数以获取仅是图形部分的部分。
示例:This is the link打开一个PDF以供下载。我想在第7页的底部获得图形,就像下面的图片一样。
如何处理?我想更喜欢使用Python进行编码。