R:不区分大小写的频率表

时间:2015-06-01 16:46:06

标签: r

以下是我的df的一栏:[df $ City]
(我还有其他专栏,但为了简单起见,我只是展示了一个专栏。)

City        
Seattle     
San Diego   
Bern       
SEATTLE
SEATTLE
BERN 

我想对城市进行频率统计。我想要两个"西雅图"和"西雅图"被认为是相同的 - 基本上,我希望频率表计算不区分大小写。

如果我使用table(df)它会给我"西雅图"和"西雅图"作为两个不同的项目。我尝试在执行table(df)

之前使用toupper(df)来克服这个问题

但是,我收到错误:invalid multibyte string.

我检查了我的文件的编码,它似乎是UTF-8 - 我可能是错的 - 有没有办法让我检查编码?

有谁知道如何获得不区分大小写的频率表?它不必使用我的方法。

提前致谢!!

1 个答案:

答案 0 :(得分:3)

您想要查看iconv()的UTF-8转换。此外,使用字符串,您可能必须使用toupper()tolower()来标准化它们,并且可能stringr::str_trim()来处理额外的空白区域......