在R中训练Tesseract - 有可能吗?

时间:2017-11-02 20:39:57

标签: r ocr tesseract training-data receipt

我试图在R中使用Tesseract和Magick的组合来阅读超市收据。我的第一次尝试(参见尝试1)在没有预处理的情况下运作良好。我在下面列出的第二次尝试似乎表现稍好一些。总结一下,我想我有两个问题。

问题1:是否可以在R中训练Tesseract包? 问题2:如果可以训练包裹怎么办呢?我想通过手动纠正错误会有一些提高性能的方法吗?

作为旁注,我尝试了abbyr包,它的效果再次稍微好一些,但价格却非常高。

尝试1

text1 <- ocr("Receipt.jpg", engine = tesseract("eng"))
cat(text1)

尝试2

text2 <- image_read("Receipt.jpg") %>%
  image_resize("2000") %>%
  image_convert(colorspace = 'gray') %>%
  image_trim() %>%
  engine = tesseract("eng") %>%
  image_ocr()

cat(text2)

0 个答案:

没有答案