隐藏文本如何存储在OCR增强的PDF文件中

时间:2018-03-12 09:39:45

标签: pdf ocr

//编辑26.03.2018 - 谁想继续我的工作可以查看我的源文件https://github.com/n0l0cale/ocr-sampledata

我实际上正在寻找有关PDF文件的一些细节。对我来说最重要的是文件可以使用很长时间,如果可能的话,OCR应该自动应用于新文件(这似乎是Adobe Acrobat无法实现的......)。

为此,我一直在寻找不同的解决方案如何OCR我的PDF文件。我发现有三个候选人似乎正在做他们应该做的事情......(或多或少)。但是这三种变体都有它们的优点和缺点......但似乎有不同的方法如何在PDF文件中存储数据....对于所有三个变体...让我解释一下:

但在所有三种情况下,我都可以搜索文件中的文字,并使用"删除隐藏信息"并选择"隐藏文字":

View of "Remove hidden text" function in Adobe Acrobat DC Pro

我非常困惑....有谁知道这些程序是如何存储他们隐藏的文本信息的?

S上。

P.S。:对于那些想知道这个不祥的预检剧本是什么的人:https://theblog.adobe.com/hidden-gems-in-acrobat-dc-how-to-optimize-hidden-ocr-text/

1 个答案:

答案 0 :(得分:3)

  

有谁知道这些程序是如何存储其隐藏文本信息的呢?

您正确地发现Abby Finereader的方法与Adobe Acrobat和Tesseract的方法不同:

  • Abby创建一个页面内容流,首先在页面上正常绘制文本并最终覆盖扫描图像。
  • Acrobat和Tesseract创建内容流,首先绘制图像,然后无形地绘制文本(使用文本渲染模式3,什么都不绘制)。

后两种结果的区别在于所用字体的选择:

  • Acrobat使用常规标准14种字体,P​​DF查看器有一个字体程序将它们渲染为普通字形。
  • Tesseract使用字体 GlyphLessFont 将字体程序嵌入到结果文件中。渲染时,此字体中的字形不会显示为我们的普通拉丁字形,而只显示为空格。

考虑到您观察到的Abby结果的视觉效果,Acrobat或Tesseract使用的方法可能更合适。

无论是喜欢具有视觉识别字形的字体(如Acrobat使用的字体)还是没有(如Tesseract所使用的)字体,大多只是品味问题。它们仅用于隐形渲染模式。