在R中使用两种语言的双重词干

时间:2018-03-22 11:28:26

标签: r tm stemming

在我的语料库中有俄语和英语两种语言。

Hello, how are you
Привет, как дела

我可以将双重词干用于两种语言 像这样的事情

tw.corpus <- tm_map(tw.corpus,stemDocument,  c("russian","english"))

还是需要另一种方法?

1 个答案:

答案 0 :(得分:1)

stemDocument只会考虑你的语言向量的第一个参数。您目前的代码只会阻止俄语(而不是英语)。

要执行双重词干,您只需执行两次词干(每种语言一次)。

tw.corpus <- tm_map(tw.corpus,stemDocument,  c("russian"))
tw.corpus <- tm_map(tw.corpus,stemDocument,  c("english"))