我需要从食物中转录营养信息,并使用tesseract我已经意识到,对于数字,尤其是十进制数字,这确实是不准确的。
例如,如果我执行:
tesseract example.jpg - --dpi 300
它返回以下转录:
Valores medios / Valores médios Por 100g Por 209*
VALOR ENERGETICO / 2338k) —- 468kJ
ENERGIA S60 kcal 112 kcal
GRASAS / LIPIDOS 34g 68g
- de las cuales saturadas /dos quais saturados 20g 40g
HIDRATOS DE CARBONO 98 g 12
-de los cuales azucares/dos quais acucares 57g llg
PROTEINAS 48q 1,09
SAL 0,149 0,039
文本可以很好地转录,但涉及数字时,它会省略6个3个小数逗号,不匹配2个数字(58和560),并且失败7个单位(虽然很清楚,但g和9常常令人困惑)
我想知道是否可以使用tesseract的任何配置来改善此结果,或通过其他任何方式来做到这一点。