R - Tokenization - TermDocumentMatrix中的单个和两个字母单词

时间:2015-02-24 19:02:36

标签: r nlp tokenize tm

我目前正在尝试进行一些文本处理,我希望在TermDocumentMatrix中获得一个和两个字母的单词。

问题在于它似乎只显示3个字母以上的单词。

    library(tm)
    library(RWeka)

    test<-'This is a test.'

    testmyCorpus<-Corpus(VectorSource(test))
    testTDF<-TermDocumentMatrix(testmyCorpus, control=list(tokenize=AlphabeticTokenizer))
    inspect(testTDF)

仅显示“this”和“test”字样。有什么想法吗?

非常感谢你的帮助! 罗伯特

1 个答案:

答案 0 :(得分:2)

Here几乎可以解决您的问题:简而言之,您应该向TermDocumentMatrix添加选项control=list(wordLengths=c(1,Inf)