R:用普通字母替换所有带有间断的字母

时间:2011-05-17 17:08:32

标签: r

我正在寻找一种简单的方法来用普通字母替换所有标点符号。例如,我想将föó更改为foo。我可以这样做:

gsub("ö|ó","o","föó")
然而,对于每一个可能的标点字母来说,这可能需要大量的手工工作。有没有办法自动执行此操作?

1 个答案:

答案 0 :(得分:9)

您可以尝试一些变体:

    cleanString <- function(x){
        tmp <- iconv(x, from="UTF8", to ="ASCII//TRANSLIT")
        gsub("[^[:alpha:]]", "", tmp)
        }

x = "föó"

cleanString(x)

[1] "foo"

使用Remove diacritics from a string

中的iconv的想法