从复杂文档中扫描OCR

时间:2012-04-08 12:37:49

标签: algorithm image-processing language-agnostic ocr

我需要创建一个工具,使用高质量的相机扫描文档中的特定文本块并对其进行OCR。每个文档都匹配相同的模板,包含几个填充数据的表。我需要从每个扫描文档中的一个特定单元格中提取数据。

我需要考虑图像的旋转和次要变换。整个工作流程应如下所示:

  1. 文档被“显示”到相机。软件可以生成文档图片。
  2. 软件可以进行一些小的旋转和其他转换(由于手中拿着文件,可能会发生轻微的剪切,缩放,旋转)。
  3. 软件识别正在显示正确的模板文档,并从特定单元格中提取图像。
  4. 然后图像被OCR'd。
  5. 基本上,我不需要最终的解决方案,而是需要从哪里开始寻找方向。我知道如何对纯文本进行OCR,我不知道如何实现第2步和第3步。

    提前致谢。

1 个答案:

答案 0 :(得分:0)

基本上,纯文本的OCR,特别是在非常好的扫描图像时,是一个很好的解决任务。您所描述的更进一步 - 使用数据捕获进行图像预处理和现场级识别。据我所知,开源引擎(即使被认为是其中最好的tesseract)也没有提供这样的功能。

与此同时,专有的OCR引擎已经解决了您多年来描述的任务(花费了大量人力资源)并且进展顺利。因此,如果您正在计划商业软件,我建议您查看http://ocrsdk.com,这是一个带有Web API的云OCR SDK。它允许您上传图像并将您发回OCR数据。它已经内置了所有可能的图像预处理算法,因此您不必担心第2步。至于第3步 - 您可能需要参考其文档的this section。我是开发这项服务前端的团队的一员,所以我可以多说一点。希望它有所帮助!