Question

我开始在R中使用文本挖掘。

我遇到了这样的问题，当使用tm_map函数作为另一种语言而不是英语的停用词时，aumlets显示不正确。

示例：

#Test
a<-"Ääkkösiä paljon, että toiminta selviää."
docs <- Corpus(VectorSource(a))
inspect(docs)

# This causes problems:
docs <- tm_map(docs, removeWords, stopwords("finnish"))

dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
d

Whitouth tm_map，它显示如下：

             word freq
että         että    1
paljon     paljon    1
selviää   selviää    1
toiminta toiminta    1
ääkkösiä ääkkösiä    1

使用tm_map，结果会有所不同。应该删除“että”这个词，因为它是芬兰语的一个禁用词。此处aumlets也崩溃了：

             word freq
kkÃ           kkÃ    1
paljon     paljon    1
selviÃ     selviÃ    1
siÃ           siÃ    1
toiminta toiminta    1

R文本挖掘 - 删除不同语言的停用词会导致aumlet问题

0 个答案: