有没有办法通过RTextTools在我的TDM中获得unigrams和bigrams?

时间:2014-03-05 13:56:36

标签: r package classification n-gram tm

如果要比较用于分类文本文档的算法,RTextTools非常方便。有一个选项:ngramLength可以指定,如果想要使用1克,2克,3克等等。现在我想在我的Term Document Matrix中加入1克和2克!有没有办法做到这一点?

myTDM <- create_matrix(labeled$CLEAN, language="english", 
                    removeNumbers=FALSE, stemWords=FALSE, ngramLength=1,  
                    removePunctuation=FALSE, removeSparseTerms=0.98, 
                    removeStopwords=FALSE, stripWhitespace=FALSE, toLower=FALSE)

在另一个论坛中,我看到“Tim J”(可能是Tim Jurka,RTextTools的创建者之一)写道,这个功能将在RTextTools的新版本中。他写道,它可能会在2013年1月中旬发布。现在一年多以后,我想知道是否真的有这个新功能以及它是如何使用的!

谢谢!!

0 个答案:

没有答案