Question

我正在使用R编程进行OCR，并且遇到一个问题，即从CAT语句生成的输出与从WRITE.TABLE语句生成的输出不同。我正在使用Tesseract软件包。下面是代码示例：-

# load necessary package ----
library(tesseract)

text5 <- ocr("D:/abc/image.jpg")
cat(text5)
write.table(text5, "D:/abc/image.txt",row.names = 
FALSE, quote = FALSE, sep="\t")

现在，当我运行cat语句（以上代码的第2行）时，我在R studio的控制台中看到以下输出：-

Conﬁdentlal Patlent Informatlon

但是，当我使用write.table函数生成txt文件时，输出却不同。见下文：-

Con<U+FB01>dentlal Patlent Informatlon

****注意：-在整个文档中，无论“机密”一词出现在哪里，txt文件都将其显示为上述文本****

我将无法附加要处理的图像作为机密材料。

我的研究表明，它与Unicode字符有关，OCR正在工作。我可能需要修改write.table语句以合并Unicode，但是我不确定如何做到这一点。我已经参考了以下source，但是在如何编辑现有的运行行方面并没有太多帮助。

有人可以帮助我改善如何阅读此特定单词的代码吗？

P.S。这只是一个词而引起的问题。

R中CAT和WRITE TABLE命令之间的输出差异

0 个答案: