R:iconv删除不起作用的非ASCII字符

时间:2018-11-30 14:13:59

标签: r iconv

我有一个包含Twitter数据的数据集,我正在尝试从中删除所有非ASCII字符。 数据集的行当前如下所示:

'期待今晚的比赛并为竞争激烈的人加油。 Sh \ u2026'

,我想得到这个:

'期待今晚的比赛并为竞争激烈的人加油。嘘

由于我的csv文件的编码为“未知”,因此我已使用read.csv2(file, encoding='UTF-8')将其强制为“ UTF-8”。另外,我已经使用as.vector(x)将我的text列转换为向量,然后尝试了:

iconv(x, from = "UTF-8", to = "ASCII", sub = '')

sapply(x, function(row) iconv(row, "UTF-8", "ASCII", sub=""))

作为解决方案,我在其他类似问题中也找到了解决方案。但是,数据集或向量中没有任何变化。

对可能出现的问题有何想法?

0 个答案:

没有答案