Rtexttools使用create_matrix创建文档术语矩阵时遇到问题

时间:2015-01-23 13:06:39

标签: r supervised-learning

我第一次使用RTextTools。这是我的create_matrix代码

library(RTextTools)
texts <- c("This is the first document.", 
          "Is this a text?", 
        "This is the second file.", 
        "This is the third text.", 
        "File is not this.") 
doc_matrix <- create_matrix(texts, language="english", removeNumbers=FALSE, stemWords=TRUE, removeSparseTerms=.2)

我收到以下错误:

Error in `[.simple_triplet_matrix`(matrix, , sort(colnames(matrix))) : 
Invalid subscript type: NULL.
In addition: Warning messages:
1: In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'
2: In is.na(j) : is.na() applied to non-(list or vector) of type 'NULL'

我还没有看到其他人发布此错误,并且发现有一些非常基本的错误。

彼得

2 个答案:

答案 0 :(得分:1)

您需要从removeSparseTerms=.2)上的tm包文档中删除最终参数removeSparseTerms:“一个术语 - 文档矩阵,其中x中的那些术语被删除,至少有一个空的稀疏百分比(即,在文档中出现0次的术语)元素。即,结果矩阵仅包含稀疏因子小于稀疏的术语。“

我认为稀疏度阈值对于您的数据集来说太低了。

答案 1 :(得分:-1)

doc_matrix <- create_matrix(texts, language="english", removeNumbers=FALSE, stemWords=TRUE, removeSparseTerms=.9999)