我生成了一个Term-Document-Matrix,现在我想根据一个单词列表在Term-Document-Matrix中选择术语。因此,我计划将Term-Document-Matrix与列表结合使用,并删除不完整的行。
我只找到组合两个Term-Document-Matrix但不将Term-Document-Matrix与列表或矩阵组合的方法。这该怎么做?
这是列表negemo
V1
1 unpleasant
2 grief
3 sobs
4 sobbing
5 raging
6 mourn
答案 0 :(得分:0)
如果您有一个单词列表作为向量,则可以在创建文档术语矩阵时使用词典命令。
参见示例:
library(tm)
data("crude")
crude <- as.VCorpus(crude)
crude <- tm_map(crude, content_transformer(tolower))
crude <- tm_map(crude, removePunctuation)
crude <- tm_map(crude, removeNumbers)
crude <- tm_map(crude, removeWords, stopwords("smart"))
crude <- tm_map(crude, stripWhitespace)
crude <- tm_map(crude, stemDocument)
# List of words
low <- c("price", "oil", "barrel", "contract")
# restict dtm to list of words
dtm <- DocumentTermMatrix(crude, control=list(dictionary = lib))
head(inspect(dtm))
Terms
Docs barrel contract oil price
127 2 2 5 5
144 0 0 12 6
191 1 1 2 2
194 1 1 1 2
211 0 0 1 0
236 4 0 7 8