我的用例非常简单。我需要将PDF转换为images.I尝试使用apache pdfbox,我在转换包含扫描图像的pdfs时遇到了一些麻烦。当我转换扫描图像时,由于压缩/缩放,图像清晰度会丢失。所以我试图从PDF中提取图像数据然后存储它。但问题是我可能会得到包含图像和文本的PDF文件,在这种情况下我需要回退到图像转换模式。问题是如何区分仅具有图像的页面/文档和具有复合数据的页面/文档。我认为我可以为此目的使用ProcSet防御,但看起来根据PDF规范标记为过时且不可靠。其他可能性是检查链接到该页面的所有对象,看它是否包含除图像之外的任何内容。如果有更简单的方法,请告诉我 感谢
答案 0 :(得分:0)
如果您打算将pdf转换为图片,最好使用ImageMagick。如果您使用ImageMagick,有很多选项可以改变图像的质量。使用ImageMagick将pdf转换为图像非常简单。