是否有任何程序允许我在PDF渲染之上叠加PDF的文本(OCR)图层?
我想快速查看文本图层是否有错误。
如果可以使用程序完成它会更方便,如果没有,某些cli命令或脚本也可以工作。
答案 0 :(得分:0)
叠加?它意味着您希望添加文本,而我相信您希望能够访问文本以进行检测并可能进一步分析OCR文本质量。或许需要进一步澄清。
我们的开发人员在算法上工作了一段时间,以检测PDF中文本的存在,然后评估其质量。有许多情况可以欺骗基本算法 - 将贝茨数字或印记符添加到仅图像PDF中使得看起来像PDF具有高质量文本而没有实际文本。一些复印机生产可搜索的PDF和#34;虽然使用包含许多错误的非常低质量的OCR,但不一定在第一页上通常是某种具有大字体的标题页,因此算法遇到的文本的第一行似乎是高质量的。或者第一页可能有文本,而其他页面没有,但算法可能认为整个PDF都有文本。
在我们的商业大容量基于服务器的OCR软件(由服务机构,SaaS平台,库,积压转换等使用)中,我们现在可以使用现有的文本层和智能决策进行高级PDF检测&# 34;这可以过滤掉许多这些误报情况。我们的OCR可以跳过使用PDF格式的高质量文本重新录制PDF文件。如果您正在寻找一种高质量的廉价OCR平台,这种检测是其中的一项功能,但如果没有我们的OCR,它就无法单独使用。 OCR工作流程用作该过滤器的一部分。我们的开发人员编写并集成了这些算法而无需外部工具。
我在www.wisetrend.com,我们为各种OCR项目提供软件解决方案和咨询。