如果要比较用于分类文本文档的算法,RTextTools非常方便。有一个选项:ngramLength可以指定,如果想要使用1克,2克,3克等等。现在我想在我的Term Document Matrix中加入1克和2克!有没有办法做到这一点?
myTDM <- create_matrix(labeled$CLEAN, language="english",
removeNumbers=FALSE, stemWords=FALSE, ngramLength=1,
removePunctuation=FALSE, removeSparseTerms=0.98,
removeStopwords=FALSE, stripWhitespace=FALSE, toLower=FALSE)
在另一个论坛中,我看到“Tim J”(可能是Tim Jurka,RTextTools的创建者之一)写道,这个功能将在RTextTools的新版本中。他写道,它可能会在2013年1月中旬发布。现在一年多以后,我想知道是否真的有这个新功能以及它是如何使用的!
谢谢!!