Question

我目前正在尝试进行一些文本处理，我希望在TermDocumentMatrix中获得一个和两个字母的单词。

问题在于它似乎只显示3个字母以上的单词。

    library(tm)
    library(RWeka)

    test<-'This is a test.'

    testmyCorpus<-Corpus(VectorSource(test))
    testTDF<-TermDocumentMatrix(testmyCorpus, control=list(tokenize=AlphabeticTokenizer))
    inspect(testTDF)

仅显示“this”和“test”字样。有什么想法吗？

非常感谢你的帮助！罗伯特

Answer 1

Here几乎可以解决您的问题：简而言之，您应该向TermDocumentMatrix添加选项control=list(wordLengths=c(1,Inf)。

R - Tokenization - TermDocumentMatrix中的单个和两个字母单词

1 个答案: