dplyr过滤器的相同结果以相同的数据开始

时间:2015-03-12 14:08:41

标签: r dplyr

当我试图回答this question时,我遇到了一些非常奇怪的行为。下面我定义了两次相同的数据,一次是data.frame,第二次是mutate。我检查结果是否相同。然后我尝试做同样的过滤操作。对于第一个数据集,这是有效的,但对于第二个(相同的)数据集,它会失败。任何人都可以找出原因。

这种差异的部分原因似乎是ñ的使用。但我不明白为什么这对第二个数据集来说是一个问题,但不是第一个数据集。

# define the same data twice
datos1 <- data.frame(año = 2001:2005, gedad = c(letters[1:5]), año2 = 2001:2005)  
datos2 <- data.frame(año = 2001:2005, gedad = c(letters[1:5])) %>% mutate(año2 = año) 
# check that they are identical
identical(datos1, datos2)
# do same operation
datos1 %>% filter(año2 >= 2003)
## año gedad año2
## 1 2003     c 2003
## 2 2004     d 2004
## 3 2005     e 2005
datos2 %>% filter(año2 >= 2003)
## Error in filter_impl(.data, dots) : object 'año2' not found

注意:我不相信这是原始问题的重复,因为我问为什么会出现这种差异并且原帖会询问如何修复它。

编辑:由于@Khashaa无法重现错误,因此这是我的sessionInfo()输出:

sessionInfo()
## R version 3.1.2 (2014-10-31)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## 
## locale:
## [1] LC_COLLATE=German_Switzerland.1252  LC_CTYPE=German_Switzerland.1252    LC_MONETARY=German_Switzerland.1252
## [4] LC_NUMERIC=C                        LC_TIME=German_Switzerland.1252    
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
## [1] dplyr_0.4.1
## 
## loaded via a namespace (and not attached):
## [1] assertthat_0.1  DBI_0.3.1       lazyeval_0.1.10 magrittr_1.5    parallel_3.1.2  Rcpp_0.11.4     tools_3.1.2  

1 个答案:

答案 0 :(得分:9)

通过将R的区域设置切换为German_Switzerland.1252,我能够在具有希腊系统区域设置的计算机上重现错误。我还注意到,在第二种情况下,错误和变量的名称都改为aρo2

似乎mutate在创建新列的名称时使用系统区域设置,如果与控制台使用的区域设置不同,则会导致转换。我能够使用修改后的列名查询dato2

library(dplyr)
Sys.setlocale("LC_ALL","German_Switzerland.1252")
datos1 <- data.frame(año = 2001:2005, gedad = c(letters[1:5]), año2 = 2001:2005)  
datos2 <- data.frame(año = 2001:2005, gedad = c(letters[1:5])) %>% mutate(año2 = año) 

datos1 %>% filter(año2 >= 2003)
##   aρo gedad aρo2
## 1 2003     c 2003
## 2 2004     d 2004
## 3 2005     e 2005
datos2 %>% filter(año2 >= 2003)
##  Error in filter_impl(.data, dots) : object 'aρo2' not found
datos2 %>% filter("aρo2" >= 2003)
## aρo gedad aρo2
## 1 2001     a 2001
## 2 2002     b 2002
## 3 2003     c 2003
## 4 2004     d 2004
## 5 2005     e 2005

原始问题中两个案例中出现ñ的原因可能意味着机器的系统区域设置设置为850,这是一个拉丁语代码页,其中带有变音符号的字符与Windows 1252的代码不同。

“有趣”的是:

names(datos2)[[1]]==names(datos1)[[1]]
## [1] TRUE

因为

names(datos1)[[1]]
## [1] "aρo"

names(datos2)[[1]]
## [1] "aρo"

这意味着R本身会使转换变得混乱,并且filter会进行适当的转换。

所有这一切的士气 - 不要使用非英文字符,或确保使用与机器相同的区域设置(相当脆弱)。

<强>更新

Semi-official confirmation R确实经历了系统区域设置,因为它假定它实际上系统使用的区域设置。 Windows虽然始终使用UTF-16,但“系统区域设置”实际上是“区域设置”框中的标签所示 - 用于传统非Unicode应用程序的区域设置。

如果我没记错的话,“系统区域设置”曾经是Windows 2000和NT之前整个系统的区域设置(包括UI语言等)。如今,每个用户甚至可以使用不同的UI语言,但名称已经卡住了。