R中的stemDocument减少了一些词。如何调整呢?

时间:2018-06-10 16:47:25

标签: r nlp tm

我在R中遇到了函数stemDocument的问题。如下面的块所示,我正确使用了函数,我的文档中没有特殊的符号。代码运行良好,没有任何警告。但是,我的文字中的一些词会被削减太多。

例如,失败,变量,应用,变化,流行,将被转换为failur,variabl,applic,chang,popul。我理解这是因为函数会将单词转换成它们的根,但是当我们想要将结果呈现给其他人时,我们能做些什么来使结果更具可读性(例如,通过一个单词可以表示)?

我知道可以通过stemCompletion function来完成根,但是我们仍然需要手动指定相关字典,如果涉及太多单词,这将是乏味的。

我想知道如果有一些方法我们可以将具有相同根的单词转换为像stemDocument这样的单词,但结果并不像root一样简单:它应该是一个单词(例如,最多文档中经常出现的单词)。如果有人能与我分享一些想法,我将非常感激。

(1, 2, 3)
<class 'tuple'>

0 个答案:

没有答案