标签: pdfbox embedded-fonts
我正在使用PdfBox从PDF文件中提取文本。当PDF不包含任何嵌入字体时,一切正常。当存在一些TrueType嵌入字体时会发生此问题。我发现在相同的情况下,嵌入字体会将默认字符的形状替换为其他形状。例如,'ï'的字符代码用于编码'ł'。我知道如果没有任何映射或OCR,我无法获得角色的真实形状。我想知道嵌入字符可能重新定义了哪些字符。我的问题是如何知道PDF流中的哪些字符是由嵌入字体定义的?