为什么pdf文档无法搜索?

时间:2009-12-31 01:46:57

标签: pdf encoding indexing adobe arabic

我有一份包含阿拉伯语内容的pdf文档,当我尝试在文档中搜索特定单词时,adobe reader没有返回任何结果。

这似乎是格式问题......我该如何解决? 感谢。

2 个答案:

答案 0 :(得分:2)

至少有四种不同的方法可以将文本输入PDF文档(按顺序或可能):

  1. 使用标准文本运算符和标准字体放置文本
  2. 使用带有非标准字体的标准文本运算符放置文本
  3. 绘制一个或多个代表文字的图像
  4. 通过使用各种PDF图形命令手动绘制字形来放置文本
  5. 案例1通常是可搜索的。 案例2是可搜索的,如果字体和编码是理智的 - 如果它们不是(非拉丁字体可能就是这种情况)那么可能没有可靠的方法将编码的字形映射回Unicode(顺便说一句) - PDF相当于Unicode恶意)。 如果不了解PDF的生成方式,案例3是完全无法搜索的。 案例4是完全无法搜索的。

    尽管如此,所有案例都应该使用了解阿拉伯语的OCR引擎来阅读。我知道Iris engine会使用阿拉伯语。

答案 1 :(得分:1)

它实际上可能不是文本,或者它可能在Reader不注意的容器中。当您处理大多数人不会在其系统上安装的字体时,将文本对象扩展为矢量形状尤为常见。它在屏幕上看起来一样,但它不可搜索。