我正在尝试运行一个看似简单的任务,尝试使用'textcat'包识别文本向量的语言。我已经清理了文本数据(推文样本),只留下标准字符,但是,当我尝试执行textcat命令时,如下所示
text.df$language <- textcat(text.df$text)
我收到以下错误消息:
Error in textcnt(x, n = max(n), split = split, tolower = tolower, marker = marker, :
not a valid UTF-8 string
尽管事实如下:
nchar(text.df$text, "c", allowNA=TRUE)
建议数据中没有非utf8字符。
有没有人有任何想法?提前谢谢。
答案 0 :(得分:0)
在输入文字上尝试iconv
...
text <- "i💙you"
> iconv(text, "UTF8", "ASCII", sub="")
[1] "iyou"