从Java中扫描的PDF文档中获取pixeldata

时间:2016-02-29 22:52:11

标签: java pdf pdfbox pdfclown

我有一些文档,我用Xerox扫描仪将数字化为PDF文件。使用Java,我试图从中提取RGB像素数据,以用于图像识别应用程序。从头开始开发这个有点超出我的水平,所以我依靠第三方库进行PDF处理。

到目前为止,我已经尝试了2个不同的库; PdfBox和PdfClown。

使用PdfBox,我尝试使用convertToImage()方法获取BufferedImage。使用PdfClown,我尝试使用render(page,size)类中的Renderer方法获取BufferedImage。在这两种情况下,返回的图像都是空白的所有像素均为白色[(r,g,b) = (255,255,255)]。

我能够从其他不是来自扫描的pdf文档中获取非空白的BufferedImage,所以我怀疑问题在于扫描文档的格式。

以下是PFD文件示例:http://www.filedropper.com/innlevering1

有谁知道如何解决这个问题?或者你能提供不同的方法吗?

1 个答案:

答案 0 :(得分:0)

安装JBIG2插件解决了这个问题。现在一切都很完美。非常感谢您的帮助。