从PDF格式的表格中提取图片

时间:2018-01-03 20:22:14

标签: image

我想写一个小程序或脚本,从pdf中提取一组图片。

我有几张PDF,每张都有一张图片表。我会链接到每个文件有一张图片。因此我需要一种方法来提取它们。由于PDF(表格/网格)的性质,编写程序似乎比手动方法更容易。但是我不知道有哪些工具可用。

哪些库可用?

首选Python,然后是C#或Java,然后可能是其他语言(My C和C ++生锈了,我多年没有这样做了。)

我在Debian Gnu / Linux上,因此有多种工具可供选择。

1 个答案:

答案 0 :(得分:0)

我选择了pdfbox(一个Apache项目,所以自由软件)它是一个java库和一个命令行工具(app模块)。然后我用一些python编写脚本来处理提取的文本(是的,它也是这样做的),并重命名图像文件。