如何从R中的Term-Document-Matrix中删除空文档

时间:2018-03-31 13:18:31

标签: r text-mining corpus term-document-matrix

所以我在R:

中从语料库创建了一个术语文档矩阵

tdm_tfidf <-TermDocumentMatrix(corpus,control=list(weighting=weightTfIdf))

但是,警告TDM包含空文档:

Warning: In weighting(x) : empty document(s): 54 80 130 142 151 156 162 203 215 248 264 280 284 300 326 327 355 389 486 558 637 668 680 812 872 986 1003 1121 1168 1306 1456 1546 1547 1551 1552 1574 1690 1841 1867 1874 1943 1998 2112 2113 2117 2452 2471 2514 2515 2632 2703 2837 2924 2947 2967 2968 3002 3023 3121 3149 3161 3258...

有没有办法从TDM中删除空文档?我知道文件术语矩阵是可能的!

rowTotals <- apply(dtm_tfidf , 1, sum) dtm_tfidf <- dtm_tfidf[rowTotals> 0, ]

提前致谢!

0 个答案:

没有答案