我的数据框在一列中有大约10,000个单词,在另一列中有相应的频率。我还有一个约600字的向量。 600个字中的每一个都是数据帧中的字。如何从10,000字数据帧中查找600字矢量的频率?
答案 0 :(得分:0)
众多解决方案中的一个,其中df$words
是您的data.frame列,其中包含wordsvector
作为向量的字段:
library(plyr)
freqwords <- ddply(df, .(words), summarize, n = length(words)) #shows frequency of all the words in the data.frame
freqwords[freqwords$words %in% wordsvector,] #keeping only the words that appear in your vector
下次如果您提供一些虚拟数据会有所帮助,这样我们可以更好地帮助您。
答案 1 :(得分:0)
使用dplyr
的联接功能。
# make the 600 vector into a dataframe
600_df <- as.data.frame(600_vec)
# left join the two dataframes
df <- left_join(x = 600_df, y = 10000_df, by = "word")
其中“word”是两个数据帧之间的变量名常量