iText:将PDF转换为文本时缺少字符

时间:2015-03-25 11:42:07

标签: pdf itext

我正在尝试使用LocationTextExtractionStrategy.class从this pdf中提取文本,但由于某种原因,在解析过程中会丢弃许多字符。

在原始.pdf的第一页上;

    【表紙】
    【提出書類】有価証券報告書
    【根拠条文】金融商品取引法第24条第1項
    【提出先】近畿財務局長
    【提出日】平成22年6月28日
    【事業年度】第27期(自 平成21年4月1日 至 平成22年3月31日)
    【会社名】株式会社カネミツ
    【英訳名】KANEMITSU CORPORATION

结果文本输出的数字如22,28和英文文本“KANEMATSU”缺失;

    【表紙】
    【提出書類】 有価証券報告書
    【根拠条文】 金融商品取引法第条第1項
    【提出先】 近畿財務局長
    【提出日】 平成年6月日
    【事業年度】 第期(自 平成年4月1日 至 平成年3月日)
    【会社名】 株式会社カネミツ
    【英訳名】

这是代码......

    PdfReader reader = new PdfReader(sourceFileUrl);
    String strategyClass =         “com.itextpdf.text.pdf.parser.LocationTextExtractionStrategy.class”

    int n = reader.getNumberOfPages();
    for(int I = 1; I < n; i++) {
    TextExtractionStrategy strategy = (TextExtractionStrategy) Class.forName(strategyClass).newInstance();
            String text = PdfTextExtractor.getTextFromPage(reader, i,strategy);
    …
    }

我已经在SO上审查了类似性质的其他问题,this page是类似的,虽然我可以直接从pdf复制文本,所以这可能是一个不同的问题。

0 个答案:

没有答案