我正在开发文本挖掘领域并且是新手。我是一个文件,其中包含一系列单词及其相应的权重,如下所示:
Malfunction Weight
malformed 1
unformed 0.9
intensive 0.8
malfunctioned 0.7
front 0.6
icu 0.5
injury 0.4
care 0.3
disease 0.2
diagnosis 0.1
现在,我想用文档检查列表中的每个单词,并检索文档中每个术语的出现次数。任何人都可以告诉你如何在R中做同样的事情吗?
我使用过tm包但我不想做term-document矩阵。首先,我需要找到与上面匹配的单词,然后我需要在每个文档中找到这些单词的出现次数
答案 0 :(得分:1)
如果您需要更基本的介绍,我建议this book
如果您只想计算这十个单词,可以使用:
length(document.words.v[which(document.words.v=="malformed")])
每个单词