我有一个名为df
的数据库,如下所示:
Message
c("This","is,"some","kind","of","message")
c("Another","message")
计算数据库中最常用单词的最佳方法是什么?如果我sort(table(df$Message[1]), decreasing=T)
,我会得到第一行最常用的词。
我应该paste
将所有行变成一个巨大的行并使用相同的公式吗?数据框有20k +行,所以这看起来效率不高。
编辑:要添加到我的问题,我使用strsplit获取此数据库,起初它看起来像这样:
Message
"This is some kind of message"
"Another message"