将多页PDF转换为单页PDF并提取图像

时间:2011-10-23 15:32:44

标签: php linux

我有一个多页PDF文件,其中包含我需要解析的信息。信息和图片仅限于自己的页面。我需要从PDF中提取文本和图像。

我正在使用CentOS和PHP。

我的尝试:

我最初尝试使用pdftotext和imagemagick的组合。我将PDF转换为图像,实际上将页面分成了自己的图像。不幸的是,页面上的图像质量非常差。

我的目标:

我需要将PDF拆分为多个PDF,每页一个。然后,我需要以尽可能高的质量从该页面中提取图像。

感谢。

1 个答案:

答案 0 :(得分:1)

imagemagick不适合执行此任务

当您需要以原始尺寸从pdf中提取图像时(即最好的,因为任何其他分辨率是或小于或大于原始分辨率),您必须使用

<强> pdfimages

http://www.foolabs.com/xpdf/download.html

(如果无法从源代码编译,静态二进制文件可用)

语法:

pdfimages file.pdf image-root

产生的图像将具有 .ppm 的扩展名,除非您添加开关 -j 以将jpeg图像作为输出