使用tm进行文本挖掘 - 用数字替换文档名称

时间:2018-03-28 09:47:40

标签: r text-mining tm

我正在尝试对各种html文件进行文本挖掘。我希望用户能够输入任何单词和包含该单词的所有文档的列表。现在的问题是我的tdm用数字替换了所有文档名称。我怎样才能解决这个问题?这是我的代码和结果。

library(tm)
corpus <- Corpus( DirSource("~/shiny-dashboard/New_Shiny/site_dumps/", encoding = "UTF-8"),readerControl = list(language = "en") )
corpus <- sapply(corpus, function(x) iconv(x, "latin1", "ASCII", sub=""))
corpus <- Corpus(VectorSource(corpus),encoding = "UTF-8", readerControl = list(language = "en"))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removePunctuation)
corpus<- tm_map(corpus,content_transformer(tolower))
corpus <-tm_map(corpus, removeWords,stopwords("english"))
corpus <-tm_map(corpus, stripWhitespace)
corpus <-tm_map(corpus, stemDocument)
tdm = DocumentTermMatrix(corpus)
as.data.frame(inspect(tdm[,"love"]))

这是输出。

Terms Docs class div font href http onion span style text title 119 47 17198 28 4290 4430 11016 7 35 23 5 138 3 6 21874 10937 21900 22101 0 21877 32819 3 205 1169 604 26 2212 1067 6 1167 218 83 771 241 133156 89668 4 15921 11 13 688 6785 24 44826 248 265 230 79 112 136 94 24 29 90 38 260 1 0 478 1938 577 10 0 91 44 2 376 2480 20 4 1022 577 0 2808 6 372 829 449 8230 13168 9880 2097 737 665 0 3299 2 2 474 466 481 133 57 49 18 333 523 183 119 50 12883 17179 30 5572 5728 11964 192 167 75 11

0 个答案:

没有答案