PDF和文本图层

时间:2012-07-10 11:57:02

标签: pdf ocr scanning

根据此网站http://www.searchable-pdf.com/content.php?lang=en&c=61,可以在添加文字图层时搜索PDF。

我一直在寻找PDF的技术规范。我认为文本可以通过两种方式存储到PDF中: a)作为图像层上方的文本层(如上面的网页所述) b)当您从Word文档(带文本)创建PDF时,我认为Word不会将所有文本存储在文本图层中。我认为它会将它存储在图像层中?正确?

自PDF 1.4起,已添加XMP(http://en.wikipedia.org/wiki/Extensible_Metadata_Platform)。但什么是XMP?这是我上面讨论的“文本层”吗?

如果扫描仪正在对图像执行OCR,是否将文本存储在“文本图层”中?还是“XMP”领域?这只能是PDF版本为1.4的时候?

如何检测PDF是否已有文本数据?例如:PDF A已使用OCR扫描而PDF B未扫描。我怎么知道应该将PDF B发送到单独的OCR引擎?

2 个答案:

答案 0 :(得分:9)

PDF规范没有提到“文本层”。通常,只有一种方法可以“存储”文本:通过显示运算符的文本。这些操作符使用特定颜色,字体,字体大小和文本呈现模式在特定位置绘制文本。有几种文本渲染模式。为了回答您的问题,文本可以是可见的或不可见的。

执行OCR的扫描仪,将光栅图像和文本呈现给PDF文档。使用不可见文本呈现模式呈现文本。结果是您可以使用鼠标选择文本(突出显示的区域将显示在图像顶部的预期位置),您可以搜索文本。搜索结果将再次显示在正确的位置。

从Word文档生成PDF时会发生什么情况取决于您用来转换的软件。据我所知,这些转换器不会生成图像,但会生成可见文本。

XMP是元数据而非可视数据。

最后,关于检测PDF是否包含文本数据的问题,此处为similar question

答案 1 :(得分:4)

我赞成了Frank Rem的回答,因为它是'完整的'。

让我补充一些细节:

  1. 文本的“隐身”来自Tr,PDF中的文本呈现模式3 运算符:“既不填充也不描边文字” {{3 }}。
  2. 看看这个超级用户问题:(PDF-1.7 spec, Chapter 9.3.6)以及我在那里的答案,以了解更多关于技术细节的内容(特别是看看标题为的那个)我们怎样才能做到看不见的文字?“)。