R中的Tesseract无法识别“&”

时间:2018-09-19 16:23:26

标签: r imagemagick ocr tesseract

我是R编程的初学者,应该写代码从图像中读取文本! 我正在使用Tesseract和Magick软件包进行相同的操作,并且遇到了代码将“&”转换为“ 8”的问题: 我已经附加了要用作输入的图像。 Image used for processing

下面是我正在运行的代码

test2 <- image_read("C:/Users/admin/Desktop/testimage.jpg") %>%
  image_resize("2000") %>%
  image_convert(colorspace = 'gray') %>%
  image_trim() %>%
  image_ocr()
cat(test2)
write.table(test2, "C:/Users/admin/Desktop/output2.txt", sep="\t")

下面是我得到的输出

No relation between boycotting
panchayat polls 8: Article 35A:
Subramanian Swamy

我已经参考了following来获得一些理解,但是没有找到任何适合该特定问题的解决方案。

我也浏览了该网站,但是在阅读特殊字符方面并没有太大帮助。

如果有人可以帮助我,那将真的很有帮助。

1 个答案:

答案 0 :(得分:1)

您可以将Imagemagick与TIF而不是JPG一起使用吗? 我用下面的查询,它的工作。

buildscript {
repositories {
    maven { url 'https://maven.fabric.io/public' }
}

dependencies {
    //classpath 'io.fabric.tools:gradle:1.+'     // old version
    classpath 'io.fabric.tools:gradle:1.25.4'   // new version
}
}