我目前正在进行一些文本分析。我想只保留字母数字字符但由于某种原因我无法删除一些我不考虑字母数字的讨厌字符。这是我正在处理的一个例子:
letters <- "ՄĄՄdasdas"
letters <- gsub("[^[:alnum:]]", "",letters)
letters
> "ՄĄՄdasdas"
我在这里做错了什么?
答案 0 :(得分:6)
@konvas将向您展示如何在这种情况下正确使用gsub
。您尝试的问题是这些非ASCII字符在您的语言环境中被视为字母字符。另一种选择是使用iconv
:
iconv(letters, to='ASCII', sub='')
答案 1 :(得分:3)
尝试gsub("[^A-Za-z0-9]", "", letters)