我正在尝试对各种html文件进行文本挖掘。我希望用户能够输入任何单词和包含该单词的所有文档的列表。现在的问题是我的tdm用数字替换了所有文档名称。我怎样才能解决这个问题?这是我的代码和结果。
library(tm)
corpus <- Corpus(
DirSource("~/shiny-dashboard/New_Shiny/site_dumps/", encoding = "UTF-8"),readerControl = list(language = "en")
)
corpus <- sapply(corpus, function(x) iconv(x, "latin1", "ASCII", sub=""))
corpus <- Corpus(VectorSource(corpus),encoding = "UTF-8", readerControl = list(language = "en"))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removePunctuation)
corpus<- tm_map(corpus,content_transformer(tolower))
corpus <-tm_map(corpus, removeWords,stopwords("english"))
corpus <-tm_map(corpus, stripWhitespace)
corpus <-tm_map(corpus, stemDocument)
tdm = DocumentTermMatrix(corpus)
as.data.frame(inspect(tdm[,"love"]))
这是输出。
Terms
Docs class div font href http onion span style text title
119 47 17198 28 4290 4430 11016 7 35 23 5
138 3 6 21874 10937 21900 22101 0 21877 32819 3
205 1169 604 26 2212 1067 6 1167 218 83 771
241 133156 89668 4 15921 11 13 688 6785 24 44826
248 265 230 79 112 136 94 24 29 90 38
260 1 0 478 1938 577 10 0 91 44 2
376 2480 20 4 1022 577 0 2808 6 372 829
449 8230 13168 9880 2097 737 665 0 3299 2 2
474 466 481 133 57 49 18 333 523 183 119
50 12883 17179 30 5572 5728 11964 192 167 75 11