Question

上下文：我有一个很大的数据集，其中包含各种.csv表。我想要一个字符变量作为一个因素。此因素具有非唯一的级别（我想它们是唯一的，但是在打印时它们似乎并不唯一）。

我尝试过

> unique(tt$Originating.Body)[1]
[1] "Court (First Section)"
> unique(tt$Originating.Body)[14]
[1] "Court (First Section)"
> unique(tt$Originating.Body)[1] == unique(tt$Originating.Body)[14]
[1] FALSE
> "Court (First Section)" == "Court (First Section)"
[1] TRUE

有人可以向我解释这种行为吗？我检查了帮助以进行匹配，但是我并不十分了解。另外，我尝试仅使用UTF-8，如果使用stringi :: stri_enc_isutf8（），它将为我的所有字符串返回TRUE。我在Windows计算机上使用"LC_COLLATE=German_Switzerland.1252;LC_CTYPE=German_Switzerland.1252;LC_MONETARY=German_Switzerland.1252;LC_NUMERIC=C;LC_TIME=German_Switzerland.1252"。不幸的是，我没有找到可复制的示例。

R：两个看似清晰的字符串不相等

0 个答案: