Question

我正在开发文本挖掘领域并且是新手。我是一个文件，其中包含一系列单词及其相应的权重，如下所示：

                  Malfunction         Weight
                  malformed             1
                  unformed             0.9
                  intensive            0.8
                  malfunctioned        0.7
                  front                0.6
                  icu                  0.5
                  injury               0.4
                  care                 0.3
                  disease              0.2
                  diagnosis            0.1

现在，我想用文档检查列表中的每个单词，并检索文档中每个术语的出现次数。任何人都可以告诉你如何在R中做同样的事情吗？

我使用过tm包但我不想做term-document矩阵。首先，我需要找到与上面匹配的单词，然后我需要在每个文档中找到这些单词的出现次数

Answer 1

如果您需要更基本的介绍，我建议this book

如果您只想计算这十个单词，可以使用：

length(document.words.v[which(document.words.v=="malformed")])

每个单词

如何获取已存在于另一个文件中的文档中的单词数？

1 个答案: