Question

我尝试在R中使用ocr tesseract软件包从png图像中提取文本（如下）

该文本主要是西班牙语。这是我的代码：

library(tesseract)
#tesseract_download("spa") #download the Spanish train data if you haven't already
spanish <- tesseract("spa")
path_string <- "factura.png"
text <- ocr(path_string, engine = spanish)
cat(text)

但是结果令人失望。

ném…c……
…r …
nw£ccwm … m…… u
mmm …"
pz… u—=,:4| nm;
mmmnzvgm 3134
NUM“ vmnscwm
cuaw ……er
nmcmvcn4 c…r vum
£m|unmusnm . u7m
¡…una
suma… ……
ncm u|s
m:s .
mm u7m
cmmo 1240
nmrAm au…va m m
m.
515 mu .…
…
=mmnzmo
a… rn¿a> rc.¿… ……
u7m
Rm mmm… swmks
…… mmm
m…—
Guuumwsucmm

由于dpi低而导致结果差吗？通过修补预处理是否有可能改善这一点？

对于每张收据，我真正需要的只是拔出带有“ equilibrio”字样和该值右边的值（在本例中为41760）的行项目。可以告诉tesseract只关注某些单词并提取数字吗？

我可以使用R中的tesseract ocr软件包从该图像中提取某些单词吗？

0 个答案: