我导入了一个csv文件,它有大约40列和2000个观察(行),混合了数字和文本来创建语料库。 我在Cross Validated上问了以下问题,没有回复。希望到目前为止在代码上的某些方向+错误修复
意图是使用各种文本挖掘技术:
从这个包含一个文件的语料库中探索可以从(商业价值)得出的任何东西 - 这意味着我没有特别的目标,因为我不确定我是否会从中获得任何东西(更多)我很可能会这样做)
我将作为第二步,然后导入相同格式/结构的多个csv文件,即列数和列标题将相同,只有行数不同。然后,我将尝试运行一些文本挖掘分析(从基础到高级),看看是否有任何有价值的东西。
myfile <- read.csv("myfile.csv",stringsAsFactors = FALSE)
str(myfile) colnames(myfile)
myfile_comment <- paste(myfile$comment,collapse = " ")
myfile_source <- VectorSource(myfile_comment)
corpus <- Corpus(myfile_source)
corpus <- tm_map(corpus,PlainTextDocument)
corpus <- tm_map(corpus,content_transformer(tolower))
corpus <- tm_map(corpus,removePunctuation)
corpus <- tm_map(corpus,stripWhitespace)
corpus <- tm_map(corpus,removeWords,stopwords("english"))
corpus <- tm_filter(corpus,removeNumbers)
corpus <- tm_map(corpus,stemDocument)
dtm <- DocumentTermMatrix(corpus)
dtm_n <- as.matrix(dtm)
freq <- colSums(dtm_n)
freq <- sort(freq,decreasing = TRUE)
words <- names(freq)
wordcloud(words[1:100],freq[1:100])
如果我不使用removeNumbers
,则会生成wordcloud。如果我使用removeNumbers
代码(按上面的顺序),我会收到错误:
UseMethod(“stemDocument”,x)中的错误:没有适用的方法 'stemDocument'应用于类“NULL”的对象
编辑:
str(corpus)
生成:
List of 1
$ character(0):List of 2
..$ content: chr " report appropriate item fees similar penalty applied associated borrowing reportable line item"| __truncated__
..$ meta :List of 7
.. ..$ author : chr(0)
.. ..$ datetimestamp: POSIXlt[1:1], format: "2016-08-13 00:09:29"
.. ..$ description : chr(0)
.. ..$ heading : chr(0)
.. ..$ id : chr(0)
.. ..$ language : chr(0)
.. ..$ origin : chr(0)
.. ..- attr(*, "class")= chr "TextDocumentMeta"
..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
- attr(*, "class")= chr [1:2] "VCorpus" "Corpus"