R文本挖掘术语邻接矩阵

时间:2016-01-26 19:29:04

标签: r text-mining tm adjacency-matrix term

我使用tm包从我的语料库创建了一个文档术语矩阵。

dtm <- DocumentTermMatrix(myCorpus, control=list(wordLengths=c(4, 20),
       bounds = list(global = c(1,13))))

然后我创建了一个术语 - 邻接矩阵。

ttm_results <- t(as.matrix(dtm)) %*% as.matrix(dtm)

当我检查我的结果样本时

ttm_results[200:205, 200:205]

enter image description here

我注意到它是一个非常庞大但稀疏的数据集。

如何删除essentially zeros

的行

我认为essentially zero包含1,2和5等没有adjacent条款的行。

1 个答案:

答案 0 :(得分:1)

这个怎么样

#rebuilding your matrix 
m <- diag(6)
m[3, 3] = 71
m[4, 5] = 1
m[5, 4] = 1

m
     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    1    0    0    0    0    0
[2,]    0    1    0    0    0    0 
[3,]    0    0   71    0    0    0
[4,]    0    0    0    1    1    0
[5,]    0    0    0    1    1    0
[6,]    0    0    0    0    0    1

#answer
m[!rowSums(m)==1, ]