R - 由于假定的无效UTF-8字符串而没有执行textcat

时间:2016-02-26 17:55:06

标签: r utf-8

我正在尝试运行一个看似简单的任务,尝试使用'textcat'包识别文本向量的语言。我已经清理了文本数据(推文样本),只留下标准字符,但是,当我尝试执行textcat命令时,如下所示

text.df$language <- textcat(text.df$text)

我收到以下错误消息:

Error in textcnt(x, n = max(n), split = split, tolower = tolower, marker = marker,  : 
  not a valid UTF-8 string

尽管事实如下:

nchar(text.df$text, "c", allowNA=TRUE)

建议数据中没有非utf8字符。

有没有人有任何想法?提前谢谢。

1 个答案:

答案 0 :(得分:0)

在输入文字上尝试iconv ...

text <- "i💙you"
> iconv(text, "UTF8", "ASCII", sub="")
[1] "iyou"