错误removenumber textmining

时间:2016-08-13 00:00:38

标签: r text-mining corpus

我导入了一个csv文件,它有大约40列和2000个观察(行),混合了数字和文本来创建语料库。 我在Cross Validated上问了以下问题,没有回复。希望到目前为止在代码上的某些方向+错误修复

意图是使用各种文本挖掘技术:

  1. 从这个包含一个文件的语料库中探索可以从(商业价值)得出的任何东西 - 这意味着我没有特别的目标,因为我不确定我是否会从中获得任何东西(更多)我很可能会这样做)

  2. 我将作为第二步,然后导入相同格式/结构的多个csv文件,即列数和列标题将相同,只有行数不同。然后,我将尝试运行一些文本挖掘分析(从基础到高级),看看是否有任何有价值的东西。

    myfile <- read.csv("myfile.csv",stringsAsFactors = FALSE) 
    str(myfile) colnames(myfile) 
    
    myfile_comment <- paste(myfile$comment,collapse = " ")
    myfile_source  <- VectorSource(myfile_comment)
    corpus         <- Corpus(myfile_source)
    corpus         <- tm_map(corpus,PlainTextDocument) 
    corpus         <- tm_map(corpus,content_transformer(tolower)) 
    corpus         <- tm_map(corpus,removePunctuation) 
    corpus         <- tm_map(corpus,stripWhitespace) 
    corpus         <- tm_map(corpus,removeWords,stopwords("english")) 
    corpus         <- tm_filter(corpus,removeNumbers) 
    corpus         <- tm_map(corpus,stemDocument) 
    dtm            <- DocumentTermMatrix(corpus) 
    dtm_n          <- as.matrix(dtm) 
    freq           <- colSums(dtm_n) 
    freq           <- sort(freq,decreasing = TRUE) 
    words          <- names(freq) 
    wordcloud(words[1:100],freq[1:100])
    
  3. 如果我不使用removeNumbers,则会生成wordcloud。如果我使用removeNumbers代码(按上面的顺序),我会收到错误:

      

    UseMethod(“stemDocument”,x)中的错误:没有适用的方法   'stemDocument'应用于类“NULL”的对象

    编辑:

    str(corpus)生成:

    List of 1
     $ character(0):List of 2
      ..$ content: chr " report   appropriate item fees  similar penalty applied associated   borrowing reportable  line item"| __truncated__
      ..$ meta   :List of 7
      .. ..$ author       : chr(0) 
      .. ..$ datetimestamp: POSIXlt[1:1], format: "2016-08-13 00:09:29"
      .. ..$ description  : chr(0) 
      .. ..$ heading      : chr(0) 
      .. ..$ id           : chr(0) 
      .. ..$ language     : chr(0) 
      .. ..$ origin       : chr(0) 
      .. ..- attr(*, "class")= chr "TextDocumentMeta"
      ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
     - attr(*, "class")= chr [1:2] "VCorpus" "Corpus"
    

0 个答案:

没有答案