我有乌克兰文本(西里尔文字母)的PDF文件。但是当我将其复制并粘贴到某个输入字段时,接下来我会得到一些东西:
ȿɄɈɇɈɆȱɄɈ-ɋɌȺɌɂɋɌɂɑɇɂɃ ȺɇȺɅȱɁ ȼɂȻȱɊɄɈȼɈȽɈ
没有任何文字检测或转换器对我没有帮助。
它是什么以及如何复制普通的乌克兰文字?
答案 0 :(得分:1)
PDF可能是使用嵌入字体子集创建的,没有toUnicode
映射。基本上,PDF内容中使用的字符代码被映射到PDF中嵌入的字形,这些字形显示,但是没有从这些代码到常规Unicode代码的映射,因此复制它们会产生乱码。提取原始内容的唯一方法是使用某种形式的OCR。