我正在尝试使用LocationTextExtractionStrategy.class从this pdf中提取文本,但由于某种原因,在解析过程中会丢弃许多字符。
在原始.pdf的第一页上;
【表紙】
【提出書類】有価証券報告書
【根拠条文】金融商品取引法第24条第1項
【提出先】近畿財務局長
【提出日】平成22年6月28日
【事業年度】第27期(自 平成21年4月1日 至 平成22年3月31日)
【会社名】株式会社カネミツ
【英訳名】KANEMITSU CORPORATION
结果文本输出的数字如22,28和英文文本“KANEMATSU”缺失;
【表紙】
【提出書類】 有価証券報告書
【根拠条文】 金融商品取引法第条第1項
【提出先】 近畿財務局長
【提出日】 平成年6月日
【事業年度】 第期(自 平成年4月1日 至 平成年3月日)
【会社名】 株式会社カネミツ
【英訳名】
这是代码......
PdfReader reader = new PdfReader(sourceFileUrl);
String strategyClass = “com.itextpdf.text.pdf.parser.LocationTextExtractionStrategy.class”
int n = reader.getNumberOfPages();
for(int I = 1; I < n; i++) {
TextExtractionStrategy strategy = (TextExtractionStrategy) Class.forName(strategyClass).newInstance();
String text = PdfTextExtractor.getTextFromPage(reader, i,strategy);
…
}
我已经在SO上审查了类似性质的其他问题,this page是类似的,虽然我可以直接从pdf复制文本,所以这可能是一个不同的问题。