R使用removeSparseTerms参数构建TermDocumentMatrix

时间:2014-10-21 11:05:02

标签: r text-mining tm term-document-matrix

我是否可以在创建tm::TermDocumentMatrix对象时删除稀疏术语?

我试过了:

TermDocumentMatrix(file.corp, control = list(removeSparseTerms=0.998))

但它不起作用。

1 个答案:

答案 0 :(得分:1)

不,您无法使用TermDocumentMatrix功能删除稀疏术语。如果您使用?TermDocumentMatrix检查该功能的帮助,您会看到control的帮助列在termFreq的帮助中,当您查看该功能的帮助时?termFreq,您会看到removeSparseTerms未列在那里。虽然你有bounds可以做相关的工作。

如果你只想要一个结合了TermDocumentMatrixremoveSparseTerms的单行,你只需将你的内线翻转出来,这样就可以了:

removeSparseTerms(TermDocumentMatrix(file.corp), 0.998)

我建议您仔细查看tm包的文档,这是一个记录良好的贡献包的更好示例之一。这可能会节省您等待某人在此回答您问题的时间!