Question

我正在尝试从pdf文件中提取文本。该文本可在Acrobat中选择。 Acrobat列出ArialUnicodeMS字体，类型为：TrueType（CID）和编码：Identity-H。

使用代码段

PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);

我收到了一些东西，但输出到标准输出或文件时输出是不可读的（输出看起来像空白字符）。如何提取Identity-H编码文本？

Answer 1

这是一个很长的但是你尝试将你的pdf设置为版本1.2，身份-H编码是字体的双字节编码，这主要用于亚洲字体和所有Indesign生成的pdf。

如果你的pdf中没有像渐变，透明的功能，你可以试试（在你做之前备份你的pdf，就像我之前说的那样是长镜头，只是大声思考）< / p>