应用错误收集

如何正确提取此PDF文件的阿拉伯文本？

时间：2018-07-20 14:29:48

标签： pdf encoding arabic

今天，我试图在包含阿拉伯语内容的PDF文件中搜索阿拉伯语单词。

所有PDF阅读器软件都无法在此PDF文件中搜索任何阿拉伯语单词。

因此，我将PDF文件拖到Firefox浏览器中，并通过inspect元素选择了一个包含一些单词的区域，并看到了以下内容：

hw ½oiC而不是آخرین سخن

此PDF文件中使用的编码类型是什么？如何将其编码为普通文本？

1 个答案:

答案 0 :(得分：3)

很难在没有看到的情况下对正在查看的文件进行注释，但是一个很好的起点是尝试Acrobat，方法是将文本复制并粘贴到文本编辑器中，或者通过搜索文本内容来了解是否可以正确提取还是不正确。

如果无法正确提取它，则很可能是该字体缺少ToUnicode条目（有关更多信息，请参见ISO PDF 32000-1：2008规范的9.10.1节）。