如何使用Android上的iText从PDF文件中按顺序提取图像和文本

时间:2012-11-25 01:11:13

标签: java android pdf itext

我已经完成了从PDF中提取文本但现在我想要提取图像。第一个问题是图像在每页的文本之间。我想知道的是如何按顺序提取图像,即使文件是每页2列,以及如何确定图像在文本中的位置。

以下是我尝试过的一些代码。

图像提取:

ExtractImages.java:
public static final String RESULT = "results/part4/chapter15/Img%s.%s";
public void extractImages(String filename)
    throws IOException, DocumentException {
    PdfReader reader = new PdfReader(filename);
    PdfReaderContentParser parser = new PdfReaderContentParser(reader);
    MyImageRenderListener listener = new MyImageRenderListener(RESULT);
    for (int i = 1; i <= reader.getNumberOfPages(); i++) {
        parser.processContent(i, listener);
    }
}

MyImageRenderListener:
public MyImageRenderListener(String path) {
    this.path = path;
}

public void renderImage(ImageRenderInfo renderInfo) {
    try {
        String filename;
        FileOutputStream os;
        PdfImageObject image = renderInfo.getImage();
        if (image == null) return;
        filename = String.format(path, renderInfo.getRef().getNumber(), image.getFileType());
        os = new FileOutputStream(filename);
        os.write(image.getImageAsBytes());
        os.flush();
        os.close();
    } catch (IOException e) {
        System.out.println(e.getMessage());
    }
}

代码处理pdf的内容并检查图像,然后将这些图像渲染为图像文件(.png,.jpg等)。

我遇到的问题是它不按顺序提取图像。我希望图像按顺序排列,这样我就能知道图像首先出现在页面中并且最后。我怎么做?那么,是否有可能提取图像而不将其呈现为文件?我对图像的目标是在我的Android应用程序中将其显示为图像而不将其转换为文件。如果我不可能,那么当用户完成使用它时,我会坚持删除图像。

我的目的是从PDF文件中提取(不查看)文本和图像,并在Android应用程序中按顺序显示。

1 个答案:

答案 0 :(得分:0)

高级方法:

  1. 从文档中提取所有文本,而不关心阅读顺序
  2. 根据字符,双字母组合和三元组的分布确定文本的语言
  3. 一旦语言已知,您就知道是使用LTR(从左到右)还是RTL阅读顺序
  4. 使用每个字符的边界框,语言和字体等信息,启发式地构建文本行(一个好的初始度量标准可能是“如果它们大致位于相同的y位置,则加入两个字符”他们的x位置之间的差距落在平均值+ std_dev范围内)
  5. 一旦你建了线,建立段落(和以前类似的启发式)
  6. 既然你有段落和文字的语言,你可以按照正确的顺序打印段落。
  7. 这是我一直在iText研究的东西,它肯定不是一项微不足道的任务。

    最简单的解决方案当然是拥有标记的pdf文档。标记文档包含有关哪些视觉元素以何种方式组合在一起的信息。或者,简单地说,你不必担心自己建立已经完成并标记的行和段落。