将Term-Document-Matrix与matix或列表连接起来

时间:2015-11-22 04:53:16

标签: r matrix

我生成了一个Term-Document-Matrix,现在我想根据一个单词列表在Term-Document-Matrix中选择术语。因此,我计划将Term-Document-Matrix与列表结合使用,并删除不完整的行。

我只找到组合两个Term-Document-Matrix但不将Term-Document-Matrix与列表或矩阵组合的方法。这该怎么做?

这是列表negemo

             V1
             1 unpleasant
             2      grief
             3       sobs
             4    sobbing
             5     raging
             6      mourn

1 个答案:

答案 0 :(得分:0)

如果您有一个单词列表作为向量,则可以在创建文档术语矩阵时使用词典命令。

参见示例:

library(tm)
data("crude")
crude <- as.VCorpus(crude)
crude <- tm_map(crude, content_transformer(tolower))
crude <- tm_map(crude, removePunctuation)
crude <- tm_map(crude, removeNumbers)
crude <- tm_map(crude, removeWords, stopwords("smart"))
crude <- tm_map(crude, stripWhitespace)
crude <- tm_map(crude, stemDocument)

# List of words
low <- c("price", "oil", "barrel", "contract")

# restict dtm to list of words
dtm <- DocumentTermMatrix(crude, control=list(dictionary = lib))

head(inspect(dtm))

     Terms
Docs  barrel contract oil price
  127      2        2   5     5
  144      0        0  12     6
  191      1        1   2     2
  194      1        1   1     2
  211      0        0   1     0
  236      4        0   7     8