我试图在R中使用Tesseract和Magick的组合来阅读超市收据。我的第一次尝试(参见尝试1)在没有预处理的情况下运作良好。我在下面列出的第二次尝试似乎表现稍好一些。总结一下,我想我有两个问题。
问题1:是否可以在R中训练Tesseract包? 问题2:如果可以训练包裹怎么办呢?我想通过手动纠正错误会有一些提高性能的方法吗?
作为旁注,我尝试了abbyr包,它的效果再次稍微好一些,但价格却非常高。
text1 <- ocr("Receipt.jpg", engine = tesseract("eng"))
cat(text1)
text2 <- image_read("Receipt.jpg") %>%
image_resize("2000") %>%
image_convert(colorspace = 'gray') %>%
image_trim() %>%
engine = tesseract("eng") %>%
image_ocr()
cat(text2)