我正在学习如何使用R来分析数据集,但我在解释不同因素(category_id,见图中)的含义时陷入困境。
基本上"一个"是一个具有变量的集合,名为" title" How the data set looks like
您可以注意到," title"中的值每个人都有很多角色,比如" The Greates Showman"
我想要做的是知道整个"标题中最常用的词是什么"变量
答案 0 :(得分:2)
vec=c("A","B","A","C","B","B")
# Find most frequent word
names(table(vec))[as.vector(table(vec))==max(table(vec))]
# Find occurences of most frequent word
max(table(vec))
#See frequency table of all words
table(vec)
答案 1 :(得分:1)
使用“DescTools”包中的“Mode()”函数。
Mode(x, na.rm = FALSE)
例如,如果您有一个向量:
> vec = c("Apple", "Apple", "Apple", "Apple", "Ball", "Ball", "Ball", "Cat")
> Mode(vec)
[1] "Apple"
attr(,"freq")
[1] 4
或者简单地说,
> Mode(vec)[1]
[1] "Apple"
答案 2 :(得分:0)
如果不向我们提供数据框的结构,这很难回答。我甚至不知道你的意思是什么'字'而且我不明白为什么您选择了类别ID这一事实是相关的。无论如何,如果有一个名为word
的列,并且您希望在此列中找到最常见的事件,则可以使用表来计算列字中每个唯一条目的计数。从那里开始挖出最高计数的表格。
freq <- table(one$word) #Work out counts for each word
maxFreq <- which.max(freq) #Find what the maximum count is
mostCommonWord <- names(freq)[freq == maxFreq] #Find all matches of the maximum value