R文本挖掘 - 删除不同语言的停用词会导致aumlet问题

时间:2018-05-14 10:08:19

标签: r character-encoding text-mining

我开始在R中使用文本挖掘。

我遇到了这样的问题,当使用tm_map函数作为另一种语言而不是英语的停用词时,aumlets显示不正确。

示例:

#Test
a<-"Ääkkösiä paljon, että toiminta selviää."
docs <- Corpus(VectorSource(a))
inspect(docs)

# This causes problems:
docs <- tm_map(docs, removeWords, stopwords("finnish"))

dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
d

Whitouth tm_map,它显示如下:

             word freq
että         että    1
paljon     paljon    1
selviää   selviää    1
toiminta toiminta    1
ääkkösiä ääkkösiä    1

使用tm_map,结果会有所不同。应该删除“että”这个词,因为它是芬兰语的一个禁用词。此处aumlets也崩溃了:

             word freq
kkà          kkà   1
paljon     paljon    1
selvià    selvià   1
sià          sià   1
toiminta toiminta    1

0 个答案:

没有答案