Question

以下是我的df的一栏：[df $ City]
（我还有其他专栏，但为了简单起见，我只是展示了一个专栏。）

City        
Seattle     
San Diego   
Bern       
SEATTLE
SEATTLE
BERN

我想对城市进行频率统计。我想要两个＆＃34;西雅图＆＃34;和＆＃34;西雅图＆＃34;被认为是相同的 - 基本上，我希望频率表计算不区分大小写。

如果我使用table(df)它会给我＆＃34;西雅图＆＃34;和＆＃34;西雅图＆＃34;作为两个不同的项目。我尝试在执行table（df）

之前使用toupper(df)来克服这个问题

但是，我收到错误：invalid multibyte string.

我检查了我的文件的编码，它似乎是UTF-8 - 我可能是错的 - 有没有办法让我检查编码？

有谁知道如何获得不区分大小写的频率表？它不必使用我的方法。

提前致谢!!

Answer 1

您想要查看iconv()的UTF-8转换。此外，使用字符串，您可能必须使用toupper()或tolower()来标准化它们，并且可能stringr::str_trim()来处理额外的空白区域......