R中CAT和WRITE TABLE命令之间的输出差异

时间:2018-09-24 13:57:44

标签: r unicode ocr tesseract

我正在使用R编程进行OCR,并且遇到一个问题,即从CAT语句生成的输出与从WRITE.TABLE语句生成的输出不同。我正在使用Tesseract软件包。 下面是代码示例:-

# load necessary package ----
library(tesseract)

text5 <- ocr("D:/abc/image.jpg")
cat(text5)
write.table(text5, "D:/abc/image.txt",row.names = 
FALSE, quote = FALSE, sep="\t")

现在,当我运行cat语句(以上代码的第2行)时,我在R studio的控制台中看到以下输出:-

Confidentlal Patlent Informatlon

但是,当我使用write.table函数生成txt文件时,输出却不同。见下文:-

Con<U+FB01>dentlal Patlent Informatlon
  

****注意:-在整个文档中,无论“机密”一词出现在哪里,txt文件都将其显示为上述文本****

我将无法附加要处理的图像作为机密材料。

我的研究表明,它与Unicode字符有关,OCR正在工作。我可能需要修改write.table语句以合并Unicode,但是我不确定如何做到这一点。我已经参考了以下source,但是在如何编辑现有的运行行方面并没有太多帮助。

有人可以帮助我改善如何阅读此特定单词的代码吗?

P.S。这只是一个词而引起的问题。

0 个答案:

没有答案