我正在处理大量数据,主要是非英文字符的名称。我的目标是将这些名称与在美国收集的一些信息相匹配。
即,我可能想要将名称'Sølvsten'(来自某些名称列表)与'Soelvsten'(存储在某些美国数据库中的名称)相匹配。这是我写的一个函数来做这件事。它显然很笨拙,有点随意,但我想知道是否有一个简单的R函数将这些外来字符转换为最近的英国邻居。我知道可能没有任何标准的方法来进行这种转换,但我只是好奇是否有转换可以通过R函数完成。
# a function to replace foreign characters
replaceforeignchars <- function(x)
{
require(gsubfn);
x <- gsub("š","s",x)
x <- gsub("œ","oe",x)
x <- gsub("ž","z",x)
x <- gsub("ß","ss",x)
x <- gsub("þ","y",x)
x <- gsub("à","a",x)
x <- gsub("á","a",x)
x <- gsub("â","a",x)
x <- gsub("ã","a",x)
x <- gsub("ä","a",x)
x <- gsub("å","a",x)
x <- gsub("æ","ae",x)
x <- gsub("ç","c",x)
x <- gsub("è","e",x)
x <- gsub("é","e",x)
x <- gsub("ê","e",x)
x <- gsub("ë","e",x)
x <- gsub("ì","i",x)
x <- gsub("í","i",x)
x <- gsub("î","i",x)
x <- gsub("ï","i",x)
x <- gsub("ð","d",x)
x <- gsub("ñ","n",x)
x <- gsub("ò","o",x)
x <- gsub("ó","o",x)
x <- gsub("ô","o",x)
x <- gsub("õ","o",x)
x <- gsub("ö","o",x)
x <- gsub("ø","oe",x)
x <- gsub("ù","u",x)
x <- gsub("ú","u",x)
x <- gsub("û","u",x)
x <- gsub("ü","u",x)
x <- gsub("ý","y",x)
x <- gsub("ÿ","y",x)
x <- gsub("ğ","g",x)
return(x)
}
注意:我知道存在名称匹配算法,例如Jaro Winkler Distance Matching,但我宁愿进行完全匹配。
答案 0 :(得分:17)
尝试将chartr
R函数用于一个字符替换(应该非常快),然后使用一系列gsub
调用清除它,每个字符对应一个对齐字符替换(可能会更慢,但没有很多)。
to.plain <- function(s) {
# 1 character substitutions
old1 <- "šžþàáâãäåçèéêëìíîïðñòóôõöùúûüý"
new1 <- "szyaaaaaaceeeeiiiidnooooouuuuy"
s1 <- chartr(old1, new1, s)
# 2 character substitutions
old2 <- c("œ", "ß", "æ", "ø")
new2 <- c("oe", "ss", "ae", "oe")
s2 <- s1
for(i in seq_along(old2)) s2 <- gsub(old2[i], new2[i], s2, fixed = TRUE)
s2
}
根据需要添加到old1
,new1
,old2
和new2
。
这是一个测试:
> s <- "æxš"
> to.plain(s)
[1] "aexs"
更新:更正了chartr
中的变量名称。
答案 1 :(得分:9)
编辑以获得更好的结果......
这可能不适用于所有情况,但iconv
可能值得研究。来自?iconv
:
说明
This uses system facilities to convert a character vector between encodings: the ‘i’ stands for ‘internationalization’.
示例:
test <- c("Sølvsten", "Günther")
iconv(test, "latin1", "ASCII//TRANSLIT")
#[1] "Solvsten" "Gunther"
这并没有大大简化,但我认为将数据与代码分开有一些说法。这与此问题非常相似:
R: replace characters using gsub, how to create a function?
定义from和to:
fromto <- read.table(text="
from to
š s
œ oe
ž z
ß ss
þ y
à a
á a
â a
ã a
ä a
å a
æ ae
ç c
è e
é e
ê e
ë e
ì i
í i
î i
ï i
ð d
ñ n
ò o
ó o
ô o
õ o
ö o
ø oe
ù u
ú u
û u
ü u
ý y
ÿ y
ğ g",header=TRUE)
然后功能:
replaceforeignchars <- function(dat,fromto) {
for(i in 1:nrow(fromto) ) {
dat <- gsub(fromto$from[i],fromto$to[i],dat)
}
dat
}
test <- c("Sølvsten", "Günther")
replaceforeignchars(test,fromto)
#[1] "Soelvsten" "Gunther"
答案 2 :(得分:8)
您可以安装uni2ascii
C程序并从R中调用它。
uni2ascii <- function(string) {
cmd <- sprintf("echo %s | uni2ascii -B", string)
system(cmd, intern = TRUE, ignore.stderr = TRUE)
}
uni2ascii <- Vectorize(uni2ascii, USE.NAMES = FALSE)
uni2ascii(c("Sølvsten", "ğ", "œ"))
## [1] "Solvsten" "g" "oe"
答案 3 :(得分:1)
扩展thelatemail的答案:原始的replaceforeignchars函数包含一个循环,它可以消耗大文本的资源。 这里&#39;一个apply函数,它在没有显式循环的情况下完全相同。就目前而言,它适用于单个字符串(例如,不是字符串向量)。
replaceforeignchars <- function(dat,fromto) {
paste0(apply(matrix(unlist(strsplit(dat,""))),1,FUN=function(x) {ifelse(x %in% fromto$from, as.character( fromto[fromto$from==x, 'to']), x)}), collapse="")
}
test <- c("Sølvsten")
replaceforeignchars(test,fromto)
[1] "Solvsten"
答案 4 :(得分:1)
同时,您也可以使用stringi软件包中的stri_trans_general()
。
library(stringi)
x <- c("š", "ž", "ğ", "ß", "þ", "à", "á", "â", "ã", "ä", "å", "æ",
"ç", "è", "é", "ê", "ë", "ì", "í", "î", "ï", "ð", "ñ", "ò",
"ó", "ô", "õ", "ö", "ø", "œ", "ù", "ú", "û", "ü", "ý", "ÿ")
y <- stri_trans_general(x, "Latin-ASCII")
data.frame(x, y, stringsAsFactors = FALSE)
#> x y
#> 1 š s
#> 2 ž z
#> 3 ğ g
#> 4 ß ss
#> 5 þ th
#> 6 à a
#> 7 á a
#> 8 â a
#> 9 ã a
#> 10 ä a
#> 11 å a
#> 12 æ ae
#> 13 ç c
#> 14 è e
#> 15 é e
#> 16 ê e
#> 17 ë e
#> 18 ì i
#> 19 í i
#> 20 î i
#> 21 ï i
#> 22 ð d
#> 23 ñ n
#> 24 ò o
#> 25 ó o
#> 26 ô o
#> 27 õ o
#> 28 ö o
#> 29 ø o
#> 30 œ oe
#> 31 ù u
#> 32 ú u
#> 33 û u
#> 34 ü u
#> 35 ý y
#> 36 ÿ y
请注意,这会将“ø”转换为“ o”。
stri_trans_general("Sølvsten", "Latin-ASCII")
#> [1] "Solvsten"