今天,我试图在包含阿拉伯语内容的PDF文件中搜索阿拉伯语单词。
所有PDF阅读器软件都无法在此PDF文件中搜索任何阿拉伯语单词。
因此,我将PDF文件拖到Firefox浏览器中,并通过inspect元素选择了一个包含一些单词的区域,并看到了以下内容:
hw ½oiC
而不是آخرین سخن
此PDF文件中使用的编码类型是什么? 如何将其编码为普通文本?
答案 0 :(得分:3)
很难在没有看到的情况下对正在查看的文件进行注释,但是一个很好的起点是尝试Acrobat,方法是将文本复制并粘贴到文本编辑器中,或者通过搜索文本内容来了解是否可以正确提取还是不正确。
如果无法正确提取它,则很可能是该字体缺少ToUnicode条目(有关更多信息,请参见ISO PDF 32000-1:2008规范的9.10.1节)。