Question

我遇到了匹配表的问题，其中一个数据帧包含特殊字符而另一个数据帧不包含特殊字符。示例：ñ Ana County vs. Dona Ana County

这是一个可以重现输出的脚本：

library(tidyverse)
library(acs)
tbl_df(acs::fips.place)    # contains "Do\xf1a Ana County"
tbl_df(tigris::fips_codes) # contains "Dona Ana County"

示例：

tbl_df(tigris::fips_codes) %>% filter(county == "Dona Ana County")

返回：

# A tibble: 1 x 5
  state state_code state_name county_code          county
  <chr>      <chr>      <chr>       <chr>           <chr>
1    NM         35 New Mexico         013 Dona Ana County

不幸的是，以下查询没有返回任何内容：

tbl_df(acs::fips.place) %>% filter(COUNTY == "Do\xf1a Ana County")
tbl_df(acs::fips.place) %>% filter(COUNTY == "Doña Ana County")
tbl_df(acs::fips.place) %>% filter(COUNTY == "Dona Ana County")

# A tibble: 0 x 7
# ... with 7 variables: STATE <chr>, STATEFP <int>, PLACEFP <int>, PLACENAME <chr>, TYPE <chr>, FUNCSTAT <chr>, COUNTY <chr>

但是，在R Studio中打开数据框时，它会显示：

问题1：为什么第二个查询没有返回，但数据库中是否出现“Do \ xf1a Ana County”？

问题2：如何将所有“特殊”字符（如ñ）转换为 n 或类似字符（UTF-8？）？是否有一个库或片段，或标题中的定义，而不是为每个字符定义规则？无论如何我都必须这样做才能匹配两个表中的某些列。

谢谢！

Answer 1

使用

 tbl_df(acs::fips.place) %>% filter(COUNTY == "Do\\xf1a Ana County")

在您的数据集中，您真正拥有的是Do\\xf1a，您可以使用例如在R控制台中查看此内容：

acs::fips.place[grep("Ana",f$COUNTY),]

要使用的功能是iconv(x, from = "", to = "")或 enc2utf8或enc2native不接受＆＃34;来自＆＃34;论点。在大多数情况下，要构建一个包，您需要将数据转换为UTF-8（我必须在构建包时转换所有法语字符串）。在这里，我认为它是latin1，但是\已被逃脱。

x<-"Do\\xf1a Ana County"
Encoding(x)<-"latin1"
charToRaw(x)
#  [1] 44 6f f1 61 20 41 6e 61 20 43 6f 75 6e 74 79
xx<-iconv(x, "latin1", "UTF-8")
charToRaw(xx)
# [1] 44 6f c3 b1 61 20 41 6e 61 20 43 6f 75 6e 74 79

最后，如果您需要清理输出以获得类似的字符串，您可以使用此功能（直接来自我自己的编码地狱）。

to.plain <- function(s) {   
   #old1 <- iconv("èéêëù","UTF8") #use this if your console is in LATIN1
   #new1 <- iconv("eeeeu","UTF8") #use this if your console is in LATIN1
  old1 <- "èéêëù"
  new1 <- "eeeeu"
  s1 <- chartr(old1, new1, s)      
}

Answer 2

第一个问题是acs::fips.place严重受损;如果提供\\xf1a，则表示\xf1a。应该向软件包mantainer报告一个错误。与此同时，这是一个解决方法：

tbl_df(acs::fips.place) %>%
    mutate(COUNTY = scan(text = str_c(COUNTY, collapse = "\n"),
                         sep = "\n",
                         what = "character",
                         allowEscapes = TRUE)) -> fp

Encoding(fp$COUNTY) <- "latin1"

fp %>%
    filter(COUNTY == "Doña Ana County")

一旦清除了逃逸，您就可以将非ascii字符音译为ascii替换。 stringi包可以轻松实现：

library(stringi)
fp$COUNTY <- stri_trans_general(fp$COUNTY, "latin-ascii")

fp %>%
    filter(COUNTY == "Dona Ana County")

R：将“特殊”字母转换为UTF-8？

2 个答案: