在R tm文档术语矩阵中提取所有可能的ngrams

时间:2017-05-29 20:05:06

标签: r tokenize tm n-gram rweka

我在R中使用“tm”包来创建术语文档矩阵。然后我使用“RWeka”来提取下面代码中指定的三元组

myCorpus <- VCorpus(VectorSource(reddata$Tweet))

#create tokenizer function
TriTok<- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
tdm <- DocumentTermMatrix(myCorpus,control=list(tokenize=TriTok))

这里的问题是,RWeka似乎只是通过术语列表并在每三个单词之后拆分以获得三元组。 例如句子:

 On hot summer days I enjoy eating ice cream 

将分成

"On hot summer"    "days I enjoy"    "eating ice cream"

但是例如短语

"hot summer days"

会被忽略。有没有办法让RWeka包含所有三元组还是有其他选择吗?

提前致谢!

0 个答案:

没有答案