PDFBox使用文本提取图像

时间:2014-10-02 12:05:41

标签: java pdfbox

我正在尝试将PDF转换为图片。

ImageView iv = convertBufferedImage(page.convertToImage());

convertBufferedImage方法如下所示:

 private ImageView convertBufferedImage(BufferedImage bf)
{
    WritableImage wr = null;
    if (bf != null)
    {
        wr = new WritableImage(bf.getWidth(), bf.getHeight());
        PixelWriter pw = wr.getPixelWriter();
        for (int x = 0; x < bf.getWidth(); x++)
        {
            for (int y = 0; y < bf.getHeight(); y++)
            {
                pw.setArgb(x, y, bf.getRGB(x, y));
            }
        }
    }
    return new ImageView(wr);

对于某些PDF文档,它可以正常工作。 在下面的文档中,我没有得到包含文本的漏洞页面。

enter image description here

图像显示缺少文本的PDF。

如果我尝试使用以下内容获取原生文本:

PDFTextStripper pdfStripper = new PDFTextStripper();
pdfStripper.setSortByPosition(true);
pdfAsText = pdfStripper.getText(document);

它工作正常,我可以将它打印到控制台
我也从PDFBox中获取这些信息:
Okt 02,2014 1:29:58 PM org.apache.pdfbox.util.PDFStreamEngine processOperator
信息:不支持/禁用操作:i

我希望任何人都可以提供帮助。

0 个答案:

没有答案