我第一次使用RTextTools。这是我的create_matrix代码
library(RTextTools)
texts <- c("This is the first document.",
"Is this a text?",
"This is the second file.",
"This is the third text.",
"File is not this.")
doc_matrix <- create_matrix(texts, language="english", removeNumbers=FALSE, stemWords=TRUE, removeSparseTerms=.2)
我收到以下错误:
Error in `[.simple_triplet_matrix`(matrix, , sort(colnames(matrix))) :
Invalid subscript type: NULL.
In addition: Warning messages:
1: In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'
2: In is.na(j) : is.na() applied to non-(list or vector) of type 'NULL'
我还没有看到其他人发布此错误,并且发现有一些非常基本的错误。
彼得
答案 0 :(得分:1)
您需要从removeSparseTerms=.2)
上的tm
包文档中删除最终参数removeSparseTerms
:“一个术语 - 文档矩阵,其中x中的那些术语被删除,至少有一个空的稀疏百分比(即,在文档中出现0次的术语)元素。即,结果矩阵仅包含稀疏因子小于稀疏的术语。“
我认为稀疏度阈值对于您的数据集来说太低了。
答案 1 :(得分:-1)
doc_matrix <- create_matrix(texts, language="english", removeNumbers=FALSE, stemWords=TRUE, removeSparseTerms=.9999)