如何从字符串中删除未知符号?

时间:2018-09-29 11:41:05

标签: r unicode ascii

很抱歉,如果这是一个愚蠢的问题,但是我尝试搜索类似的问题,但没有找到我想要的东西。

我从Internet上抓取了一些文本,现在尝试在R中使用它。我遇到了一个问题:在某些单词的中间插入了未知字符。当我只显示表格时,它看起来很正常,但是当我复制文本时,就有这个符号。例如,如果表中的单元格为“示例”,则在将其复制到控制台时会看到以下内容:

img

不幸的是,这是有问题的,因为在这些情况下R无法识别单词,并且如果我尝试查找包含单词“ Example”的所有单元格,则找不到单元格。由于错误似乎是随机的,并且不仅适用于特定单词,我也不知道如何解决-有人可以帮助我吗?

非常感谢您!

1 个答案:

答案 0 :(得分:0)

您可以使用iconv函数从字符串中删除所有非ASCII字符。请参见下面的示例:

iconv("Ex·ample", from = "UTF-8", to = "ASCII", sub = "")
# Example