带有okinas和其他夏威夷变音符号的Munging文本字符串

时间:2015-06-11 05:35:14

标签: r encoding data-cleansing

我使用R来清理夏威夷的街道地址。地址已输入Hawaiian diacritical marks。在OSX操作系统上使用R时,我可以轻松使用gsub()来删除变音符号;然而,运行R的64位Windows机器的PC显示奇怪的字符,例如“ - 代替okina(')。我怀疑它可能是一个编码问题,并且包含了如下的编码参数:

address_file <- read.csv("file.csv", encoding="UTF-8")

虽然大部分奇怪的编码都已解决,但R不再能识别某些变音符号,例如okina。例如,我将使用以下语法,但不会删除okina:

gsub("‘", "", hiplaces$name) 

有人可以帮助您在运行64位Windows的PC上解决此问题。我怀疑它可能是1)编码问题,我选择了不正确的编码,或2)gsub解决方案,可以删除/替换变音符号。我想要清理的数据如下所示:

hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church", "‘Ōla‘a First Hawaiian    Congregational Church", "Nā‘ālehu Community Center")

gsub("‘", "", hiplaces$name) 

TIA。

1 个答案:

答案 0 :(得分:3)

由于您的最终结果是一组街道地址,因此您只需保留字母数字字符即可。在这种假设下,以下内容应该有效:

hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church",
                   "‘Ōla‘a First Hawaiian    Congregational Church",
                   "Nā‘ālehu Community Center")

hiplaces$name <- gsub("[^[:alnum:]///' ]", "", hiplaces$name)

> hiplaces$name
[1] "Imiola Congregational Church"
[2] "Olaa First Hawaiian    Congregational Church"
[3] "Naalehu Community Center"