Tesseract低精度的十进制数检测

时间:2019-12-10 11:25:00

标签: ocr tesseract

我需要从食物中转录营养信息,并使用tesseract我已经意识到,对于数字,尤其是十进制数字,这确实是不准确的。

例如,如果我执行:

tesseract example.jpg - --dpi 300

在以下预处理图像上: enter image description here

它返回以下转录:

Valores medios / Valores médios Por 100g Por 209*
VALOR ENERGETICO / 2338k) —- 468kJ
ENERGIA S60 kcal 112 kcal
GRASAS / LIPIDOS 34g 68g
- de las cuales saturadas /dos quais saturados 20g 40g
HIDRATOS DE CARBONO 98 g 12
-de los cuales azucares/dos quais acucares 57g llg
PROTEINAS 48q 1,09
SAL 0,149 0,039

文本可以很好地转录,但涉及数字时,它会省略6个3个小数逗号,不匹配2个数字(58和560),并且失败7个单位(虽然很清楚,但g和9常常令人困惑)

我想知道是否可以使用tesseract的任何配置来改善此结果,或通过其他任何方式来做到这一点。

0 个答案:

没有答案