未知的PDF编码

时间:2017-03-18 22:55:05

标签: pdf encoding

我有乌克兰文本(西里尔文字母)的PDF文件。但是当我将其复制并粘贴到某个输入字段时,接下来我会得到一些东西:

ȿɄɈɇɈɆȱɄɈ-ɋɌȺɌɂɋɌɂɑɇɂɃ ȺɇȺɅȱɁ ȼɂȻȱɊɄɈȼɈȽɈ

没有任何文字检测或转换器对我没有帮助。

它是什么以及如何复制普通的乌克兰文字?

1 个答案:

答案 0 :(得分:1)

PDF可能是使用嵌入字体子集创建的,没有toUnicode映射。基本上,PDF内容中使用的字符代码被映射到PDF中嵌入的字形,这些字形显示,但是没有从这些代码到常规Unicode代码的映射,因此复制它们会产生乱码。提取原始内容的唯一方法是使用某种形式的OCR。