r,textstem包

时间:2018-05-17 21:55:14

标签: r lemmatization lexicon

我想得到引理"潜水"来自R。

中使用textstem包的所有可能形式的单词

但是当我在r中使用了textstem包时,基本形式变得非常奇怪。

library(textstem)
words<-c("dived", "diving", "dive")

lemmatize_strings(words, dictionary = lexicon::hash_lemmas)

[1] "dive" "dive" "diva"

在这里,我不想&#34;潜水&#34;作为一个单词&#34;潜水&#34;的结果,我需要将单词&#34;潜水&#34;进入&#34;潜水&#34;,所以它可以算作与其他形式相同的单词&#34;潜水&#34;,&#34;潜水&#34;。所以下面应该是这样的。

[1] "dive" "dive" "dive"

我找到了这个链接(stemDocment in tm package not working on past tense word),但在我的情况下它可能没用,因为我必须处理超过80,000条评论,而且我很可能会遇到不同文字的相同问题。

我使用lemmatize_strings作为我拥有的数据集,但它给出的结果完全相同(尽管它有点明显)。有人可以帮帮我吗?

非常感谢你!

0 个答案:

没有答案