我正在使用OCR来阅读清晰易读的表格数据。来自OCR的数据包含大量拼写错误和错误提取的项目。应该从表中提取正确的数据结构的定义。我的任务是找到一个程序来清理来自OCR的数据并提取尽可能多的有用数据点。例如:
在数据中我期望遵循数据点:
height - 小数值,范围为0.01到10.0,单位为米
width - 小数值,范围为0.01到10.0,单位为米
weight - 5到50范围内的整数值,以千克为单位
color - 字符串,值为"红色","黄色"或"橙色"
......等等。
从OCR我得到:
neiont:l2.G n
weion:14 ko
oolowr:veHou
鉴于上述限制,我应该能够将OCR输出解析为:
身高:12.5米
重量:14公斤颜色:黄色
您能否建议一般算法,技术或优化程序,或者甚至可以建议用于处理此任务的现成库?
答案 0 :(得分:0)
这是一项艰巨的任务!可能超出了SO的范围。更多的是可获得专利的发明。
需要考虑很多事情。首先,你怎么知道G应该是5而不是6?是的,你的眼睛可以说,但是教电脑是OCR是什么。
更不用说写得不好的7被解释为"我"。
至少颜色只有3个可能的值...