我可以使用R中的tesseract ocr软件包从该图像中提取某些单词吗?

时间:2018-08-28 01:26:49

标签: r ocr tesseract

我尝试在R中使用ocr tesseract软件包从png图像中提取文本(如下)

png image

该文本主要是西班牙语。这是我的代码:

library(tesseract)
#tesseract_download("spa") #download the Spanish train data if you haven't already
spanish <- tesseract("spa")
path_string <- "factura.png"
text <- ocr(path_string, engine = spanish)
cat(text)

但是结果令人失望。

ném…c……
…r …
nw£ccwm … m…… u
mmm …"
pz… u—=,:4| nm;
mmmnzvgm 3134
NUM“ vmnscwm
cuaw ……er
nmcmvcn4 c…r vum
£m|unmusnm . u7m
¡…una
suma… ……
ncm u|s
m:s .
mm u7m
cmmo 1240
nmrAm au…va m m
m.
515 mu .…
…
=mmnzmo
a… rn¿a> rc.¿… ……
u7m
Rm mmm… swmks
…… mmm
m…—
Guuumwsucmm

由于dpi低而导致结果差吗?通过修补预处理是否有可能改善这一点?

对于每张收据,我真正需要的只是拔出带有“ equilibrio”字样和该值右边的值(在本例中为41760)的行项目。可以告诉tesseract只关注某些单词并提取数字吗?

0 个答案:

没有答案