我无法从pdf文件中复制印地文内容。 当我尝试复制/粘贴该内容时,它会更改为不同的印地文字符。
实施例 -
Original-निर्वाचक
粘贴后 - ननरररचक
它显示如下。
任何人都可以帮助我获得确切的印地语字符。
答案 0 :(得分:5)
此问题类似于this answer中讨论的问题,sample document there的外观也提醒document here:
您的文档本身提供的信息包括:头条中的字形“निर्वाचक”代表文字“ननरररचक”。您应该向文档的来源询问文档版本,其中字体信息不会产生误导。如果那是不可能的,你应该去OCR。
第一页的第一行是由页面内容流中的以下操作生成的:
/9 239 Tf
( !"#$%&) Tj
第一行选择大小为 239 的名为 9 的字体(页面开头的操作将所有内容缩小)。第二行导致打印字形。括号中使用该字体的自定义编码引用这些字形。
PDF第一页上的字体 9 包含 ToUnicode 地图。这张地图特别是地图
<20> <20> <0928>
<21> <21> <0928>
<22> <22> <0930>
<23> <23> <0930>
<24> <24> <0930>
即。代码0x20('')和0x21('!')都映射到Unicode代码点0x0928('न')和代码0x22('“'),0x23('#')和0x24('$' )全部到Unicode代码点0x0930('र')。
因此,( !"#$%&)
的内容,显示为“निर्वाचक”,完全正确(根据文件中的信息)被提取/复制和粘贴为“ननरररचक”。