我无法从pdf文件中复制印地文内容。当我尝试复制/粘贴该内容时,它会更改为不同的印地文字符。
例 - 原创 - विधानसभा
粘贴之后 - नरधरनसभर
它显示如下。
任何人都可以帮助我获得确切的印地语字符。
答案 0 :(得分:0)
用于创建PDF的内容是什么?
可能是使用嵌入字体子集创建的,并且没有toUnicode映射。基本上,PDF内容中使用的字符代码被映射到PDF中嵌入的字形,这些字形显示,但是没有从这些代码到常规Unicode代码的映射,因此复制它们会产生乱码。提取原始内容的唯一方法是使用某种形式的OCR。
另一种可能性是你粘贴它的应用程序没有正确地塑造字符。