使用iText提取Identity-H编码的文本

时间:2011-11-09 00:40:05

标签: itext extract

我正在尝试从pdf文件中提取文本。该文本可在Acrobat中选择。 Acrobat列出ArialUnicodeMS字体,类型为:TrueType(CID)和编码:Identity-H。

使用代码段

PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);

我收到了一些东西,但输出到标准输出或文件时输出是不可读的(输出看起来像空白字符)。如何提取Identity-H编码文本?

1 个答案:

答案 0 :(得分:0)

这是一个很长的但是你尝试将你的pdf设置为版本1.2,身份-H编码是字体的双字节编码,这主要用于亚洲字体和所有Indesign生成的pdf。

如果你的pdf中没有像渐变,透明的功能,你可以试试(在你做之前备份你的pdf,就像我之前说的那样是长镜头,只是大声思考)< / p>