当我试图回答this question时,我遇到了一些非常奇怪的行为。下面我定义了两次相同的数据,一次是data.frame
,第二次是mutate
。我检查结果是否相同。然后我尝试做同样的过滤操作。对于第一个数据集,这是有效的,但对于第二个(相同的)数据集,它会失败。任何人都可以找出原因。
这种差异的部分原因似乎是ñ
的使用。但我不明白为什么这对第二个数据集来说是一个问题,但不是第一个数据集。
# define the same data twice
datos1 <- data.frame(año = 2001:2005, gedad = c(letters[1:5]), año2 = 2001:2005)
datos2 <- data.frame(año = 2001:2005, gedad = c(letters[1:5])) %>% mutate(año2 = año)
# check that they are identical
identical(datos1, datos2)
# do same operation
datos1 %>% filter(año2 >= 2003)
## año gedad año2
## 1 2003 c 2003
## 2 2004 d 2004
## 3 2005 e 2005
datos2 %>% filter(año2 >= 2003)
## Error in filter_impl(.data, dots) : object 'año2' not found
注意:我不相信这是原始问题的重复,因为我问为什么会出现这种差异并且原帖会询问如何修复它。
编辑:由于@Khashaa无法重现错误,因此这是我的sessionInfo()
输出:
sessionInfo()
## R version 3.1.2 (2014-10-31)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
##
## locale:
## [1] LC_COLLATE=German_Switzerland.1252 LC_CTYPE=German_Switzerland.1252 LC_MONETARY=German_Switzerland.1252
## [4] LC_NUMERIC=C LC_TIME=German_Switzerland.1252
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## other attached packages:
## [1] dplyr_0.4.1
##
## loaded via a namespace (and not attached):
## [1] assertthat_0.1 DBI_0.3.1 lazyeval_0.1.10 magrittr_1.5 parallel_3.1.2 Rcpp_0.11.4 tools_3.1.2
答案 0 :(得分:9)
通过将R的区域设置切换为German_Switzerland.1252
,我能够在具有希腊系统区域设置的计算机上重现错误。我还注意到,在第二种情况下,错误和变量的名称都改为到aρo2
。
似乎mutate
在创建新列的名称时使用系统区域设置,如果与控制台使用的区域设置不同,则会导致转换。我能够使用修改后的列名查询dato2
:
library(dplyr)
Sys.setlocale("LC_ALL","German_Switzerland.1252")
datos1 <- data.frame(año = 2001:2005, gedad = c(letters[1:5]), año2 = 2001:2005)
datos2 <- data.frame(año = 2001:2005, gedad = c(letters[1:5])) %>% mutate(año2 = año)
datos1 %>% filter(año2 >= 2003)
## aρo gedad aρo2
## 1 2003 c 2003
## 2 2004 d 2004
## 3 2005 e 2005
datos2 %>% filter(año2 >= 2003)
## Error in filter_impl(.data, dots) : object 'aρo2' not found
datos2 %>% filter("aρo2" >= 2003)
## aρo gedad aρo2
## 1 2001 a 2001
## 2 2002 b 2002
## 3 2003 c 2003
## 4 2004 d 2004
## 5 2005 e 2005
原始问题中两个案例中出现ñ
的原因可能意味着机器的系统区域设置设置为850,这是一个拉丁语代码页,其中带有变音符号的字符与Windows 1252的代码不同。
“有趣”的是:
names(datos2)[[1]]==names(datos1)[[1]]
## [1] TRUE
因为
names(datos1)[[1]]
## [1] "aρo"
和强>
names(datos2)[[1]]
## [1] "aρo"
这意味着R本身会使转换变得混乱,并且filter
会进行适当的转换。
所有这一切的士气 - 不要使用非英文字符,或确保使用与机器相同的区域设置(相当脆弱)。
<强>更新强>
Semi-official confirmation R确实经历了系统区域设置,因为它假定它实际上是系统使用的区域设置。 Windows虽然始终使用UTF-16,但“系统区域设置”实际上是“区域设置”框中的标签所示 - 用于传统非Unicode应用程序的区域设置。
如果我没记错的话,“系统区域设置”曾经是Windows 2000和NT之前整个系统的区域设置(包括UI语言等)。如今,每个用户甚至可以使用不同的UI语言,但名称已经卡住了。