从pdf到印地语到英语

时间:2017-06-05 21:01:07

标签: pdf hindi

我无法从pdf文件中复制印地文内容。当我尝试复制/粘贴该内容时,它会更改为不同的印地文字符。

例 - 原创 - विधानसभा

粘贴之后 - नरधरनसभर

它显示如下。

任何人都可以帮助我获得确切的印地语字符。

1 个答案:

答案 0 :(得分:0)

用于创建PDF的内容是什么?

可能是使用嵌入字体子集创建的,并且没有toUnicode映射。基本上,PDF内容中使用的字符代码被映射到PDF中嵌入的字形,这些字形显示,但是没有从这些代码到常规Unicode代码的映射,因此复制它们会产生乱码。提取原始内容的唯一方法是使用某种形式的OCR。

另一种可能性是你粘贴它的应用程序没有正确地塑造字符。