R:两个看似清晰的字符串不相等

时间:2020-10-27 10:27:10

标签: r string encoding character-encoding character

上下文:我有一个很大的数据集,其中包含各种.csv表。我想要一个字符变量作为一个因素。此因素具有非唯一的级别(我想它们是唯一的,但是在打印时它们似乎并不唯一)。

我尝试过

> unique(tt$Originating.Body)[1]
[1] "Court (First Section)"
> unique(tt$Originating.Body)[14]
[1] "Court (First Section)"
> unique(tt$Originating.Body)[1] == unique(tt$Originating.Body)[14]
[1] FALSE
> "Court (First Section)" == "Court (First Section)"
[1] TRUE

有人可以向我解释这种行为吗?我检查了帮助以进行匹配,但是我并不十分了解。另外,我尝试仅使用UTF-8,如果使用stringi :: stri_enc_isutf8(),它将为我的所有字符串返回TRUE。我在Windows计算机上使用"LC_COLLATE=German_Switzerland.1252;LC_CTYPE=German_Switzerland.1252;LC_MONETARY=German_Switzerland.1252;LC_NUMERIC=C;LC_TIME=German_Switzerland.1252"。不幸的是,我没有找到可复制的示例。

0 个答案:

没有答案