如何正确提取此PDF文件的阿拉伯文本?

时间:2018-07-20 14:29:48

标签: pdf encoding arabic

今天,我试图在包含阿拉伯语内容的PDF文件中搜索阿拉伯语单词。

所有PDF阅读器软件都无法在此PDF文件中搜索任何阿拉伯语单词。

因此,我将PDF文件拖到Firefox浏览器中,并通过inspect元素选择了一个包含一些单词的区域,并看到了以下内容:

hw ½oiC而不是آخرین سخن

此PDF文件中使用的编码类型是什么? 如何将其编码为普通文本?

1 个答案:

答案 0 :(得分:3)

很难在没有看到的情况下对正在查看的文件进行注释,但是一个很好的起点是尝试Acrobat,方法是将文本复制并粘贴到文本编辑器中,或者通过搜索文本内容来了解​​是否可以正确提取还是不正确。

如果无法正确提取它,则很可能是该字体缺少ToUnicode条目(有关更多信息,请参见ISO PDF 32000-1:2008规范的9.10.1节)。