我一直在寻找一段时间但却未能找到某人描述我想要完成的事情。
目前,我正在寻找建立数据库的大约25,000张旧打字文档的图像。最初,我认为我只能通过OCR软件一次运行这些图像,并使用那里的数据。但是,图像的格式使我无法使用OCR软件批量转换它们,而不会丢失文档中的大量数据。每张照片中相关信息的方向和位置不同,这使我无法使用单个模板告诉OCR软件应该读取哪些信息。每张照片都由一张纸和一张桌子组成。有关它的信息,你可以看到纸张边缘周围的一些背景。
我感兴趣的是找到一种方法来自动重新定位和裁剪每个图像,以便每个图像中的信息表具有相同的位置和方向。这样,我就可以使用OCR软件将所有图像批量转换为实际数据。如果无法自动执行此操作,则需要花费数小时才能手动转换每个文档。
我认为可能有一种使用计算机视觉技术的方法,但我真的不知道这是多么可行。 These slides描述了类似于我想做的事情,但并不完全如此。我很感激有关如何实现这一目标的任何建议。
答案 0 :(得分:1)
我真的不知道编写自动软件是否可行,相信我,手动安排所有文档的时间要少得多,而不是为它编写代码。 据我所知,可以使用某种自动装箱技术,使用PCA或类似线路上的东西。但是,如果您不是计算机视觉学生或该领域的前瞻性学习者,我强烈推荐手动方法。
对于令人沮丧的回答感到抱歉,但有时你必须服用酸性药物。 : - (