//编辑26.03.2018 - 谁想继续我的工作可以查看我的源文件https://github.com/n0l0cale/ocr-sampledata
我实际上正在寻找有关PDF文件的一些细节。对我来说最重要的是文件可以使用很长时间,如果可能的话,OCR应该自动应用于新文件(这似乎是Adobe Acrobat无法实现的......)。
为此,我一直在寻找不同的解决方案如何OCR我的PDF文件。我发现有三个候选人似乎正在做他们应该做的事情......(或多或少)。但是这三种变体都有它们的优点和缺点......但似乎有不同的方法如何在PDF文件中存储数据....对于所有三个变体...让我解释一下:
使用Adobe Acrobat OCRed的文件:
https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_ACROBAT.pdf
导致Acrobat能够一步打开的文件(没有预加载任何背景图层),并且在预检脚本之后,我能够看到隐藏的文本:
使用Abby Finereader OCRed的文件:
https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_ABBY.pdf
似乎不适合默认的adobe preflight-script,因为它不会显示任何其他图层:
但是我能够重现这些文件似乎有一个Background-Text-Layer,它包含OCRed Text,它是最终向用户显示的Image的底层。不幸的是,这似乎是单独加载的,这在用Adobe Acrobat打开文件时会让人感到困惑......
使用Tesseract 4(Alpha)OCRed的文件:
https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_TESSERACT_oem2.pdf
还使用隐藏文本部分做了一些奇怪的魔术:
但在所有三种情况下,我都可以搜索文件中的文字,并使用"删除隐藏信息"并选择"隐藏文字":
我非常困惑....有谁知道这些程序是如何存储他们隐藏的文本信息的?
S上。
P.S。:对于那些想知道这个不祥的预检剧本是什么的人:https://theblog.adobe.com/hidden-gems-in-acrobat-dc-how-to-optimize-hidden-ocr-text/
答案 0 :(得分:3)
有谁知道这些程序是如何存储其隐藏文本信息的呢?
您正确地发现Abby Finereader的方法与Adobe Acrobat和Tesseract的方法不同:
后两种结果的区别在于所用字体的选择:
考虑到您观察到的Abby结果的视觉效果,Acrobat或Tesseract使用的方法可能更合适。
无论是喜欢具有视觉识别字形的字体(如Acrobat使用的字体)还是没有(如Tesseract所使用的)字体,大多只是品味问题。它们仅用于隐形渲染模式。