一种算法或库,用于为OCR表格数据提供结构

时间:2016-11-01 17:18:26

标签: algorithm ocr

我正在使用OCR来阅读清晰易读的表格数据。来自OCR的数据包含大量拼写错误和错误提取的项目。应该从表中提取正确的数据结构的定义。我的任务是找到一个程序来清理来自OCR的数据并提取尽可能多的有用数据点。例如:

在数据中我期望遵循数据点:

  

height - 小数值,范围为0.01到10.0,单位为米

     

width - 小数值,范围为0.01到10.0,单位为米

     

weight - 5到50范围内的整数值,以千克为单位

     

color - 字符串,值为"红色","黄色"或"橙色"

     

......等等。

从OCR我得到:

  

neiont:l2.G n

     

weion:14 ko

     oolowr:veHou

鉴于上述限制,我应该能够将OCR输出解析为:

  

身高:12.5米

     重量:14公斤

     

颜色:黄色

您能否建议一般算法,技术或优化程序,或者甚至可以建议用于处理此任务的现成库?

1 个答案:

答案 0 :(得分:0)

这是一项艰巨的任务!可能超出了SO的范围。更多的是可获得专利的发明。

需要考虑很多事情。首先,你怎么知道G应该是5而不是6?是的,你的眼睛可以说,但是教电脑是OCR是什么。

更不用说写得不好的7被解释为"我"。

至少颜色只有3个可能的值...