对于合同工作,我需要将来自德国联邦议会的许多旧的,仅扫描图形的全体辩论协议PDF格式化。
问题是大多数这些文件都采用双列格式:
Sample Protocol http://sert.homedns.org/img/btp12001.png
我很乐意阅读您对以下问题的回答:
请注意,任何工具,编程语言,框架等都可以。不要犹豫推荐深奥的产品,图书馆,如果你认为它们被jub ^ __ ^ !!
更新:议会已经扫描了这些文件o_O:sample(与上图相同)并且有很多文件,我想尽快交付合同我不能去取相同文件的打印副本,自己剪切和扫描。它们太多了。
最诚挚的问候,
Cetin Sert
答案 0 :(得分:0)
在扫描之前将页面向下剪切。
答案 1 :(得分:0)
这取决于您使用的是哪种OCR软件。几年前我用OCR API做了一些工作,我不记得这个名字,但我认为还有很多选择。无论如何,这个API允许我在页面上定义区域到OCR,如果你总是大致知道列的位置,你可以使用SDK来映射页面的各个部分。
答案 2 :(得分:0)
我使用Omnipage 17来做这些事情。它也有一个批处理模式,您可以将文档放在一个文件夹中,然后将结果放入另一个文件夹中。 它可以自动识别布局,包括列,也可以将默认布局设置为列。 您可以设置许多选项输出的外观。 但如果一切正确,请尝试演示。我目前在一些文件中遇到了韧带问题。所以像“fliegen”这样的词就像“fl iegen”一样,所以你必须拼写它们。
答案 3 :(得分:0)
查看http://www.wisetrend.com/wisetrend_ocr_cloud.shtml(OCR的在线REST API)。它基于强大的ABBYY OCR引擎。您可以获得一个免费帐户,并尝试使用一些图像来查看它是否处理2列格式(应该能够执行此操作)。此外,您可以使用许多设置(请参阅API文档) - 在使用2列之前,您可能需要调整其中的一些设置。最后,作为最后的解决方案,如果2列分割总是在同一个地方,你可以先创建一个程序,将输入图像分成两个图像(使用一些标准图像写这个不应该很难处理库),然后将生成的图像提供给OCR过程。