我有一系列以tiff,jpeg和pdf格式提供的文件。
许多人已被转录并检查转录的准确性。
我想创建pdf并想知道是否有办法在OCR过程中对图像进行OCR并纠正已验证的转录或“插入”经过验证的转录?
我可以访问Omnipage,Abbyy Finereader和Tesseract,但我不知道我想做什么是可能的。
答案 0 :(得分:1)
杰克。谢谢你的澄清。
简而言之,转录数据对于您可以轻松运行的任何OCR流程几乎没有任何好处,但高度定制的自定义开发应用程序除外,它将根据特定的OCR文本执行模糊的单词查找转录数据的位置。在该自定义应用程序中,您将使用常规OCR(您命名的任何一个),但最好是某种OCR,它为您提供已处理文本的坐标(OCR-IT API并导出到XML)或某种类型的SDK为您提供基于对象的文本访问。然后,作为后期处理的一部分,您的应用程序可以参考转录数据,假设您有办法在任何时刻识别您在转录数据中的位置,或者至少执行全文搜索并且能够在多个情况下识别正确的实例找到实例。您的转录数据可能没有坐标将文本链接回文本来自的原始图像。如果找到类似的数据,并且存在字符差异,则您的应用程序可以获取转录数据并用它替换(即更正)OCR数据。这很可能不适用于手写文本,因为常规OCR会产生噪音,甚至不足以进行模糊查找。完成所有数据替换后,您的应用程序将需要PDF导出创建功能,同样可以使用某些库。
在某些情况下,整个过程非常复杂,特别是手写文本。如果你有大量的这些图像+数据,那么花费几天(如果不是几周)开发这样的专业应用程序来处理所有数据可能是值得的。需要进行成本分析。
除了手写,如果您的图像质量很高,现代顶级质量的OCR(ABBYY,Nuance,OCR-IT)应该能够生成高质量的文本。使用PDF Text Under Image,任何OCR错误都将对读者不可见。我想说开箱即可达到95-99%的准确度是切合实际的。这种开箱即用的选项可以为您提供足够高的准确性,而且时间或费用都很少。
您的转录数据可以提供一个好处,尤其是数据包含可能无法在常用英语词典中找到的专业或行业特定词汇或专有名称(已包含在ABBYY和其他OCR软件中)。通过从转录数据中创建自定义词典,ABBYY OCR可以使用该词典进一步增加对使用开箱即用处理的特殊词语的识别。
Ilya Evdokimov