我使用R来清理夏威夷的街道地址。地址已输入Hawaiian diacritical marks。在OSX操作系统上使用R时,我可以轻松使用gsub()来删除变音符号;然而,运行R的64位Windows机器的PC显示奇怪的字符,例如“ - 代替okina(')。我怀疑它可能是一个编码问题,并且包含了如下的编码参数:
address_file <- read.csv("file.csv", encoding="UTF-8")
虽然大部分奇怪的编码都已解决,但R不再能识别某些变音符号,例如okina。例如,我将使用以下语法,但不会删除okina:
gsub("‘", "", hiplaces$name)
有人可以帮助您在运行64位Windows的PC上解决此问题。我怀疑它可能是1)编码问题,我选择了不正确的编码,或2)gsub解决方案,可以删除/替换变音符号。我想要清理的数据如下所示:
hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church", "‘Ōla‘a First Hawaiian Congregational Church", "Nā‘ālehu Community Center")
gsub("‘", "", hiplaces$name)
TIA。
答案 0 :(得分:3)
由于您的最终结果是一组街道地址,因此您只需保留字母数字字符即可。在这种假设下,以下内容应该有效:
hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church",
"‘Ōla‘a First Hawaiian Congregational Church",
"Nā‘ālehu Community Center")
hiplaces$name <- gsub("[^[:alnum:]///' ]", "", hiplaces$name)
> hiplaces$name
[1] "Imiola Congregational Church"
[2] "Olaa First Hawaiian Congregational Church"
[3] "Naalehu Community Center"