Question

我正在尝试使用LocationTextExtractionStrategy.class从this pdf中提取文本，但由于某种原因，在解析过程中会丢弃许多字符。

在原始.pdf的第一页上;

    【表紙】
    【提出書類】有価証券報告書
    【根拠条文】金融商品取引法第24条第１項
    【提出先】近畿財務局長
    【提出日】平成22年６月28日
    【事業年度】第27期（自　平成21年４月１日　至　平成22年３月31日）
    【会社名】株式会社カネミツ
    【英訳名】KANEMITSU CORPORATION

结果文本输出的数字如22,28和英文文本“KANEMATSU”缺失;

    【表紙】
    【提出書類】 有価証券報告書
    【根拠条文】 金融商品取引法第条第１項
    【提出先】 近畿財務局長
    【提出日】 平成年６月日
    【事業年度】 第期（自　平成年４月１日　至　平成年３月日）
    【会社名】 株式会社カネミツ
    【英訳名】

这是代码......

    PdfReader reader = new PdfReader(sourceFileUrl);
    String strategyClass =         “com.itextpdf.text.pdf.parser.LocationTextExtractionStrategy.class”

    int n = reader.getNumberOfPages();
    for(int I = 1; I < n; i++) {
    TextExtractionStrategy strategy = (TextExtractionStrategy) Class.forName(strategyClass).newInstance();
            String text = PdfTextExtractor.getTextFromPage(reader, i,strategy);
    …
    }

我已经在SO上审查了类似性质的其他问题，this page是类似的，虽然我可以直接从pdf复制文本，所以这可能是一个不同的问题。

iText：将PDF转换为文本时缺少字符

0 个答案: