Question

我正在尝试运行一个看似简单的任务，尝试使用'textcat'包识别文本向量的语言。我已经清理了文本数据（推文样本），只留下标准字符，但是，当我尝试执行textcat命令时，如下所示

text.df$language <- textcat(text.df$text)

我收到以下错误消息：

Error in textcnt(x, n = max(n), split = split, tolower = tolower, marker = marker,  : 
  not a valid UTF-8 string

尽管事实如下：

nchar(text.df$text, "c", allowNA=TRUE)

建议数据中没有非utf8字符。

有没有人有任何想法？提前谢谢。

Answer 1

在输入文字上尝试iconv ...

text <- "iðŸ’™you"
> iconv(text, "UTF8", "ASCII", sub="")
[1] "iyou"