我希望将英语单词语义化,以便所有单词都转换为相同的时态。例如:
c("ran","run","running")
应该成为c("run","run","run")
。
我已经探索过诸如tm,wordnet,RTextTools和Snowball C之类的R包;但所有这些都导致输出c("ran","run","run")
。正如你所看到的,他们没有转换" ran"到"跑"。
答案 0 :(得分:6)
查看我维护的textstem package:
if (!require("pacman")) install.packages("pacman")
pacman::p_load(textstem)
lemmatize_words(c("ran","run","running"))
###[1] "run" "run" "run"
请注意,如果您实际上有字符串而不是字向量,则可能需要使用lemmatize_strings
函数。