Question

我是R编程的初学者，应该写代码从图像中读取文本！我正在使用Tesseract和Magick软件包进行相同的操作，并且遇到了代码将“＆”转换为“ 8”的问题：我已经附加了要用作输入的图像。 Image used for processing

下面是我正在运行的代码

test2 <- image_read("C:/Users/admin/Desktop/testimage.jpg") %>%
  image_resize("2000") %>%
  image_convert(colorspace = 'gray') %>%
  image_trim() %>%
  image_ocr()
cat(test2)
write.table(test2, "C:/Users/admin/Desktop/output2.txt", sep="\t")

下面是我得到的输出

No relation between boycotting
panchayat polls 8: Article 35A:
Subramanian Swamy

我已经参考了following来获得一些理解，但是没有找到任何适合该特定问题的解决方案。

我也浏览了该网站，但是在阅读特殊字符方面并没有太大帮助。

如果有人可以帮助我，那将真的很有帮助。

Answer 1

您可以将Imagemagick与TIF而不是JPG一起使用吗？我用下面的查询，它的工作。

buildscript {
repositories {
    maven { url 'https://maven.fabric.io/public' }
}

dependencies {
    //classpath 'io.fabric.tools:gradle:1.+'     // old version
    classpath 'io.fabric.tools:gradle:1.25.4'   // new version
}
}

R中的Tesseract无法识别“＆”

1 个答案: