Question

我在Android中使用PDFBox从文档中提取文本时遇到了一些问题。但解析器似乎工作正常（或者至少，这就是我解释它的意思;谷歌搜索“解析= COSObject”没有给出相关的结果，不幸的是（对于某些文件，logcat是垃圾邮件，似乎没有办法关掉这个投入））。 getCharactersByArticle返回此文档的空输出，即。 vectorlistoftps是空的。

我已将文档上传到：https://ufile.io/cnvoq

对于我尝试过的大多数其他文档，文本提取工作正常，或者我得到与此无关的错误。但不是在这里。

以下是相关的代码段。

private void extractTextPosition() throws FileNotFoundException, IOException {
    FileInputStream stream = new FileInputStream(var1);
    PDFParser parser = new PDFParser(stream);

    parser.parse();
    Log.d("Parser has ","parsed");
    StringWriter outString = new StringWriter();
    CustomPDFTextStripper stripper = new CustomPDFTextStripper();
    stripper.setStartPage(currentPage);
    stripper.setEndPage(currentPage);
    stripper.setSortByPosition(true);

    try {
        stripper.writeText(parser.getPDDocument(), outString);
    } catch (Exception e) {
        e.printStackTrace();
    }
Vector<List<TextPosition>> vectorlistoftps = stripper.getCharactersByArticle();
}

CustomPDFTextStripper与PDFTextStripper相同（我更改了它，但所有更改都已被注释掉）。

Here is the logcat output

感谢任何帮助。

Answer 1

PDFBox解析器似乎解析，但文本剥离器的空输出

1 个答案: