在R中创建文档术语矩阵时,我无法获取一些重要的单词。我甚至尝试删除语料库中的所有过滤器,即在原始文件上尝试了dtm,但我仍然无法抓住它。请帮忙。 让我们说文本是这样的: "我喜欢阅读DC漫画,因为蝙蝠侠冒险"。在这里,我无法在DTM矩阵中捕获DC。
答案 0 :(得分:0)
您需要调整tm
的默认设置。只需使用DocumentTermMatrix()
或TermDocumentMatrix
即可删除任何小于3的字词。
创建dtm时,需要使用control
选项中的wordLengths选项。所以在你的情况下,1或2会捕获你想要的东西。 3的原因是它摆脱了短语,如“a”,“in”,“or”等。
DocumentTermMatrix(corpus, control=list(wordLengths = c(1, Inf)))