上下文:我有一个很大的数据集,其中包含各种.csv表。我想要一个字符变量作为一个因素。此因素具有非唯一的级别(我想它们是唯一的,但是在打印时它们似乎并不唯一)。
我尝试过
> unique(tt$Originating.Body)[1]
[1] "Court (First Section)"
> unique(tt$Originating.Body)[14]
[1] "Court (First Section)"
> unique(tt$Originating.Body)[1] == unique(tt$Originating.Body)[14]
[1] FALSE
> "Court (First Section)" == "Court (First Section)"
[1] TRUE
有人可以向我解释这种行为吗?我检查了帮助以进行匹配,但是我并不十分了解。另外,我尝试仅使用UTF-8,如果使用stringi :: stri_enc_isutf8(),它将为我的所有字符串返回TRUE
。我在Windows计算机上使用"LC_COLLATE=German_Switzerland.1252;LC_CTYPE=German_Switzerland.1252;LC_MONETARY=German_Switzerland.1252;LC_NUMERIC=C;LC_TIME=German_Switzerland.1252"
。不幸的是,我没有找到可复制的示例。