我正在尝试将pdf转换为Flint water crisis emails from Gov. Snyder的文本。基本上他们有从Outlook打印的20k +页电子邮件,然后以.pdf的形式进行扫描。 (令人讨厌,我知道。)我尝试过各种各样的工具,比如Tesseract(直接和将.pdf转换成带有ImageMagik的.tif后),我得到了一堆gobbledeegook。
有没有人对如何处理这些文件有任何其他建议?我可以在Acrobat Reader中打开它们并复制出所有文本,但结果很差且格式不一致,因此编写一个脚本来清理它非常具有挑战性。
提前致谢!
答案 0 :(得分:1)
OCR的质量直接取决于图像质量,文档格式和布局,以及您正在使用的OCR技术的质量和正确配置。随着文档复杂性的增加,通常您将从免费OCR转向更强大的商业解决方案,以实现更高的OCR结果。如果您需要格式化保留,那么仅存在于少数商业OCR应用程序中。任何一个主要的OCR提供商都是您的答案。
考虑使用OCR-IT基于Web的API(www.ocr-it.com)进行此转换。 /市场上最高质量的OCR之一。我是该系统的原始开发人员之一,我们的目标是在市场上实现最高质量。
此外,如果这种转换是为了一个好的理由,为了人们的利益,一个非营利性组织,一个非商业项目,或者只是一个善意的个人项目,我的朋友和我想要帮助。我们自愿提供免费的大容量转换。我们贡献我们的技能和高质量的OCR软件,以换取非货币补偿,例如在您的项目中提及,与我们分享我们的圈子,宣传我们的善意等等。