在R中训练Tesseract - 有可能吗？

时间：2017-11-02 20:39:57

标签： r ocr tesseract training-data receipt

我试图在R中使用Tesseract和Magick的组合来阅读超市收据。我的第一次尝试（参见尝试1）在没有预处理的情况下运作良好。我在下面列出的第二次尝试似乎表现稍好一些。总结一下，我想我有两个问题。

问题1：是否可以在R中训练Tesseract包？问题2：如果可以训练包裹怎么办呢？我想通过手动纠正错误会有一些提高性能的方法吗？

作为旁注，我尝试了abbyr包，它的效果再次稍微好一些，但价格却非常高。

尝试1

text1 <- ocr("Receipt.jpg", engine = tesseract("eng"))
cat(text1)

尝试2

text2 <- image_read("Receipt.jpg") %>%
  image_resize("2000") %>%
  image_convert(colorspace = 'gray') %>%
  image_trim() %>%
  engine = tesseract("eng") %>%
  image_ocr()

cat(text2)

0 个答案:

没有答案