丢失DTM矩阵中的单词

时间:2018-03-23 10:09:44

标签: r analytics text-mining topic-modeling

在R中创建文档术语矩阵时,我无法获取一些重要的单词。我甚至尝试删除语料库中的所有过滤器,即在原始文件上尝试了dtm,但我仍然无法抓住它。请帮忙。 让我们说文本是这样的: "我喜欢阅读DC漫画,因为蝙蝠侠冒险"。在这里,我无法在DTM矩阵中捕获DC。

1 个答案:

答案 0 :(得分:0)

您需要调整tm的默认设置。只需使用DocumentTermMatrix()TermDocumentMatrix即可删除任何小于3的字词。

创建dtm时,需要使用control选项中的wordLengths选项。所以在你的情况下,1或2会捕获你想要的东西。 3的原因是它摆脱了短语,如“a”,“in”,“or”等。

DocumentTermMatrix(corpus, control=list(wordLengths = c(1, Inf)))