我想得到引理"潜水"来自R。
中使用textstem包的所有可能形式的单词但是当我在r中使用了textstem包时,基本形式变得非常奇怪。
library(textstem)
words<-c("dived", "diving", "dive")
lemmatize_strings(words, dictionary = lexicon::hash_lemmas)
[1] "dive" "dive" "diva"
在这里,我不想&#34;潜水&#34;作为一个单词&#34;潜水&#34;的结果,我需要将单词&#34;潜水&#34;进入&#34;潜水&#34;,所以它可以算作与其他形式相同的单词&#34;潜水&#34;,&#34;潜水&#34;。所以下面应该是这样的。
[1] "dive" "dive" "dive"
我找到了这个链接(stemDocment in tm package not working on past tense word),但在我的情况下它可能没用,因为我必须处理超过80,000条评论,而且我很可能会遇到不同文字的相同问题。
我使用lemmatize_strings
作为我拥有的数据集,但它给出的结果完全相同(尽管它有点明显)。有人可以帮帮我吗?
非常感谢你!