Question

我的R版本是3.4.1平台x86_64-w64_mingw32 / x64

我正在使用R来查找文档中最常用的单词。我想干掉这些词然后完成它们。这意味着我需要将SAME字典用于词干和完成。我对使用的TM软件包感到困惑。

Q1）如果没有明确定义字典，stemDocument函数似乎工作正常。但是我想定义一个或者至少得到它所使用的那个如果它被内置到R中。我可以在任何地方下载它吗？ 显然我不能这样做

dfCorpus <- tm_map(dfCorpus, stemDocument, language = "english")

Q2）我想使用SAME字典来完成单词，如果他们不在字典中保留原文。 不能这样做所以只需要知道字典应该使用什么格式，因为它目前只给我NA所有的答案。这是两个词干和词。这只是我在网上找到的一个例子。

dict.data = fread("Z:/Learning/lemmatization-en.txt")

我希望代码类似于

dfCorpus <- stemCompletion_modified(dfCorpus, dictionary="dict.data", type="prevalent")`

感谢编辑。我看到我正试图用锤子解决我的问题。仅仅因为文档说要做到这一点我试图让它工作。所以现在我需要的只是在所有英语单词和它们的基础之间查找而不是词干。我知道我不能在这里问这个，但我确定我会找到它。周末愉快。