我开始在R中使用文本挖掘。
我遇到了这样的问题,当使用tm_map函数作为另一种语言而不是英语的停用词时,aumlets显示不正确。
示例:
#Test
a<-"Ääkkösiä paljon, että toiminta selviää."
docs <- Corpus(VectorSource(a))
inspect(docs)
# This causes problems:
docs <- tm_map(docs, removeWords, stopwords("finnish"))
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
d
Whitouth tm_map,它显示如下:
word freq
että että 1
paljon paljon 1
selviää selviää 1
toiminta toiminta 1
ääkkösiä ääkkösiä 1
使用tm_map,结果会有所不同。应该删除“että”这个词,因为它是芬兰语的一个禁用词。此处aumlets也崩溃了:
word freq
kkà kkà 1
paljon paljon 1
selvià selvià 1
sià sià 1
toiminta toiminta 1