如何为R中的单词子集提取单词频率?

时间:2017-08-10 19:18:19

标签: r dataframe text-mining word-frequency

我的数据框在一列中有大约10,000个单词,在另一列中有相应的频率。我还有一个约600字的向量。 600个字中的每一个都是数据帧中的字。如何从10,000字数据帧中查找600字矢量的频率?

2 个答案:

答案 0 :(得分:0)

众多解决方案中的一个,其中df$words是您的data.frame列,其中包含wordsvector作为向量的字段:

library(plyr)
freqwords <- ddply(df, .(words), summarize, n = length(words)) #shows frequency of all the words in the data.frame
freqwords[freqwords$words %in% wordsvector,] #keeping only the words that appear in your vector

下次如果您提供一些虚拟数据会有所帮助,这样我们可以更好地帮助您。

答案 1 :(得分:0)

使用dplyr的联接功能。

# make the 600 vector into a dataframe
600_df <- as.data.frame(600_vec)

# left join the two dataframes
df <- left_join(x = 600_df, y = 10000_df, by = "word")

其中“word”是两个数据帧之间的变量名常量