应用错误收集

我正在使用OCR来阅读清晰易读的表格数据。来自OCR的数据包含大量拼写错误和错误提取的项目。应该从表中提取正确的数据结构的定义。我的任务是找到一个程序来清理来自OCR的数据并提取尽可能多的有用数据点。例如：

在数据中我期望遵循数据点：

height - 小数值，范围为0.01到10.0，单位为米

width - 小数值，范围为0.01到10.0，单位为米

weight - 5到50范围内的整数值，以千克为单位

color - 字符串，值为＆＃34;红色＆＃34;，＆＃34;黄色＆＃34;或＆＃34;橙色＆＃34;

......等等。

从OCR我得到：

neiont：l2.G n

weion：14 ko
     oolowr：veHou

鉴于上述限制，我应该能够将OCR输出解析为：

身高：12.5米
     重量：14公斤

颜色：黄色

您能否建议一般算法，技术或优化程序，或者甚至可以建议用于处理此任务的现成库？

一种算法或库，用于为OCR表格数据提供结构

1 个答案: