R:创建termDocumentMatrix()对象时出错

时间:2016-05-10 06:47:52

标签: r term-document-matrix

这是我用于创建训练数据的termdocumentmatrix对象的代码:

finalize

它有效!没有抱怨机器。

但是,当我使用SAME技术为验证数据集创建一个时,机器会抱怨!

这是我用来为validaiton set创建termdocumentmatrix对象的代码。注意唯一的区别是我在控件中添加了“dictionary”参数:

text_train = iconv(data_train$SentimentText, "UTF-8", "ASCII", sub = "")
corpus_train = Corpus(VectorSource(text_train))
tdm_train = TermDocumentMatrix(
  corpus_train,
  control = list(
    removePunctuation = TRUE,
    removestopWords   = TRUE,
    stemming = FALSE,
    removeNumbers = TRUE, 
    tolower = TRUE,
    weighting = weightTfIdf)
)

但是,我不断收到以下错误消息:

  

simple_triplet_matrix中的错误(i = i,j = j,v = as.numeric(v),nrow =   length(allTerms),:'i,j,v'不同的长度

我读了很多帖子,包括:

  1. DocumentTermMatrix fails with a strange error only when # terms > 3000
  2. Twitter Data Analysis - Error in Term Document Matrix
  3. twitter data <- error in termdocumentmatrix
  4. Twitter Data Analysis - Error in Term Document Matrix
  5. 我尝试了所有他们建议的解决方案,但都没有。

    我要添加的一个注意事项是,只有当我使用超过2000条推文时才会出现问题。

    关于输入数据的说明

    输入数据是一个包含两列的数据表,其中一列名为“SentimentText”(您在上面的代码中看到)。

    在此列中,每行是一条推文,每条推文都是一个文本字符串,即character()。

    示例推文,即行数据,如下所示: “今天我度过了美好的一天!:&gt;”

    非常感谢任何帮助!

0 个答案:

没有答案