我有一个包含Twitter数据的数据集,我正在尝试从中删除所有非ASCII字符。 数据集的行当前如下所示:
'期待今晚的比赛并为竞争激烈的人加油。 Sh \ u2026'
,我想得到这个:
'期待今晚的比赛并为竞争激烈的人加油。嘘
由于我的csv文件的编码为“未知”,因此我已使用read.csv2(file, encoding='UTF-8')
将其强制为“ UTF-8”。另外,我已经使用as.vector(x)
将我的text列转换为向量,然后尝试了:
iconv(x, from = "UTF-8", to = "ASCII", sub = '')
和
sapply(x, function(row) iconv(row, "UTF-8", "ASCII", sub=""))
作为解决方案,我在其他类似问题中也找到了解决方案。但是,数据集或向量中没有任何变化。
对可能出现的问题有何想法?