我目前正在尝试进行一些文本处理,我希望在TermDocumentMatrix中获得一个和两个字母的单词。
问题在于它似乎只显示3个字母以上的单词。
library(tm)
library(RWeka)
test<-'This is a test.'
testmyCorpus<-Corpus(VectorSource(test))
testTDF<-TermDocumentMatrix(testmyCorpus, control=list(tokenize=AlphabeticTokenizer))
inspect(testTDF)
仅显示“this”和“test”字样。有什么想法吗?
非常感谢你的帮助! 罗伯特
答案 0 :(得分:2)
Here几乎可以解决您的问题:简而言之,您应该向TermDocumentMatrix添加选项control=list(wordLengths=c(1,Inf)
。