我正在使用R(文本分类)处理文本,我在法语文本中遇到一些问题,例如:
Charg\u00e9 d'\u00e9tude
如何解决此问题?
谢谢
答案 0 :(得分:1)
我从这个答案得到了方法:" Print unicode character string in R"。看起来R应该处理重音但原始文件上可能缺少某些内容,而R不会将文本识别为Unicode。
library(stringi)
stri_unescape_unicode("Charg\u00e9 d'\u00e9tude")
[1] "Chargé d'étude"