为什么我的Term Document Matrix最后会丢失字母?

时间:2017-11-26 04:54:00

标签: r stemming term-document-matrix

enter image description here我正在努力创建一个词云。在创作时,我看到许多单词丢失了最后的字母。例如,电影 - > movi,成为 - > becom

我用黄色标记了这些单词。缺少最后一两个字母

2 个答案:

答案 0 :(得分:1)

对于那些需要这个问题的答案的人 - 我们看到TDM中的最后一个字母丢失了,因为当我们对数据执行词干时,词干函数将查找具有相同词根的单词。然后将所有这些单词设置为根词。这就是我们将“电影”视为“Movi”等原因。

答案 1 :(得分:0)

单词末尾缺少字母是预处理的结果 - 词干。尝试在创建DTM或TDM之前避免词干,并创建一个没有词干的wordcloud。