这是我用于创建训练数据的termdocumentmatrix对象的代码:
finalize
它有效!没有抱怨机器。
但是,当我使用SAME技术为验证数据集创建一个时,机器会抱怨!
这是我用来为validaiton set创建termdocumentmatrix对象的代码。注意唯一的区别是我在控件中添加了“dictionary”参数:
text_train = iconv(data_train$SentimentText, "UTF-8", "ASCII", sub = "")
corpus_train = Corpus(VectorSource(text_train))
tdm_train = TermDocumentMatrix(
corpus_train,
control = list(
removePunctuation = TRUE,
removestopWords = TRUE,
stemming = FALSE,
removeNumbers = TRUE,
tolower = TRUE,
weighting = weightTfIdf)
)
但是,我不断收到以下错误消息:
simple_triplet_matrix中的错误(i = i,j = j,v = as.numeric(v),nrow = length(allTerms),:'i,j,v'不同的长度
我读了很多帖子,包括:
我尝试了所有他们建议的解决方案,但都没有。
我要添加的一个注意事项是,只有当我使用超过2000条推文时才会出现问题。关于输入数据的说明:
输入数据是一个包含两列的数据表,其中一列名为“SentimentText”(您在上面的代码中看到)。
在此列中,每行是一条推文,每条推文都是一个文本字符串,即character()。
示例推文,即行数据,如下所示: “今天我度过了美好的一天!:>”
非常感谢任何帮助!