Question

我正在学习如何使用R来分析数据集，但我在解释不同因素（category_id，见图中）的含义时陷入困境。

基本上＆＃34;一个＆＃34;是一个具有变量的集合，名为＆＃34; title＆＃34; How the data set looks like

您可以注意到，＆＃34; title＆＃34;中的值每个人都有很多角色，比如＆＃34; The Greates Showman＆＃34;

我想要做的是知道整个＆＃34;标题中最常用的词是什么＆＃34;变量

Answer 1

vec=c("A","B","A","C","B","B")
# Find most frequent word
names(table(vec))[as.vector(table(vec))==max(table(vec))]
# Find occurences of most frequent word
max(table(vec))
#See frequency table of all words
table(vec)

Answer 2

使用“DescTools”包中的“Mode()”函数。

Mode(x, na.rm = FALSE)

例如，如果您有一个向量：

> vec = c("Apple", "Apple", "Apple", "Apple", "Ball", "Ball", "Ball", "Cat")
> Mode(vec)
[1] "Apple"
attr(,"freq")
[1] 4

或者简单地说，

> Mode(vec)[1]
[1] "Apple"

Answer 3

如果不向我们提供数据框的结构，这很难回答。我甚至不知道你的意思是什么＆＃39;字＆＃39;而且我不明白为什么您选择了类别ID这一事实是相关的。无论如何，如果有一个名为word的列，并且您希望在此列中找到最常见的事件，则可以使用表来计算列字中每个唯一条目的计数。从那里开始挖出最高计数的表格。

freq <- table(one$word)                        #Work out counts for each word
maxFreq <- which.max(freq)                     #Find what the maximum count is
mostCommonWord <- names(freq)[freq == maxFreq] #Find all matches of the maximum value

如何使用R

3 个答案: