我正在使用R编程进行OCR,并且遇到一个问题,即从CAT语句生成的输出与从WRITE.TABLE语句生成的输出不同。我正在使用Tesseract软件包。 下面是代码示例:-
# load necessary package ----
library(tesseract)
text5 <- ocr("D:/abc/image.jpg")
cat(text5)
write.table(text5, "D:/abc/image.txt",row.names =
FALSE, quote = FALSE, sep="\t")
现在,当我运行cat语句(以上代码的第2行)时,我在R studio的控制台中看到以下输出:-
Confidentlal Patlent Informatlon
但是,当我使用write.table函数生成txt文件时,输出却不同。见下文:-
Con<U+FB01>dentlal Patlent Informatlon
****注意:-在整个文档中,无论“机密”一词出现在哪里,txt文件都将其显示为上述文本****
我将无法附加要处理的图像作为机密材料。
我的研究表明,它与Unicode字符有关,OCR正在工作。我可能需要修改write.table语句以合并Unicode,但是我不确定如何做到这一点。我已经参考了以下source,但是在如何编辑现有的运行行方面并没有太多帮助。
有人可以帮助我改善如何阅读此特定单词的代码吗?
P.S。这只是一个词而引起的问题。