如何获取已存在于另一个文件中的文档中的单词数?

时间:2015-09-22 08:30:47

标签: r text mining

我正在开发文本挖掘领域并且是新手。我是一个文件,其中包含一系列单词及其相应的权重,如下所示:

                  Malfunction         Weight
                  malformed             1
                  unformed             0.9
                  intensive            0.8
                  malfunctioned        0.7
                  front                0.6
                  icu                  0.5
                  injury               0.4
                  care                 0.3
                  disease              0.2
                  diagnosis            0.1

现在,我想用文档检查列表中的每个单词,并检索文档中每个术语的出现次数。任何人都可以告诉你如何在R中做同样的事情吗?

我使用过tm包但我不想做term-document矩阵。首先,我需要找到与上面匹配的单词,然后我需要在每个文档中找到这些单词的出现次数

1 个答案:

答案 0 :(得分:1)

如果您需要更基本的介绍,我建议this book

如果您只想计算这十个单词,可以使用:

length(document.words.v[which(document.words.v=="malformed")])

每个单词