应用错误收集

PDFBox：转换为图像：转换包含扫描文档的PDF时质量损失

时间：2013-03-21 23:47:16

标签： pdf pdfbox

我的用例非常简单。我需要将PDF转换为images.I尝试使用apache pdfbox，我在转换包含扫描图像的pdfs时遇到了一些麻烦。当我转换扫描图像时，由于压缩/缩放，图像清晰度会丢失。所以我试图从PDF中提取图像数据然后存储它。但问题是我可能会得到包含图像和文本的PDF文件，在这种情况下我需要回退到图像转换模式。问题是如何区分仅具有图像的页面/文档和具有复合数据的页面/文档。我认为我可以为此目的使用ProcSet防御，但看起来根据PDF规范标记为过时且不可靠。其他可能性是检查链接到该页面的所有对象，看它是否包含除图像之外的任何内容。如果有更简单的方法，请告诉我感谢

1 个答案:

答案 0 :(得分：0)

如果您打算将pdf转换为图片，最好使用ImageMagick。如果您使用ImageMagick，有很多选项可以改变图像的质量。使用ImageMagick将pdf转换为图像非常简单。