以下是我的df的一栏:[df $ City]
(我还有其他专栏,但为了简单起见,我只是展示了一个专栏。)
City
Seattle
San Diego
Bern
SEATTLE
SEATTLE
BERN
我想对城市进行频率统计。我想要两个"西雅图"和"西雅图"被认为是相同的 - 基本上,我希望频率表计算不区分大小写。
如果我使用table(df)
它会给我"西雅图"和"西雅图"作为两个不同的项目。我尝试在执行table(df)
toupper(df)
来克服这个问题
但是,我收到错误:invalid multibyte string.
我检查了我的文件的编码,它似乎是UTF-8 - 我可能是错的 - 有没有办法让我检查编码?
有谁知道如何获得不区分大小写的频率表?它不必使用我的方法。
提前致谢!!
答案 0 :(得分:3)
您想要查看iconv()
的UTF-8转换。此外,使用字符串,您可能必须使用toupper()
或tolower()
来标准化它们,并且可能stringr::str_trim()
来处理额外的空白区域......