R文本挖掘与随机森林

时间:2015-05-09 15:11:29

标签: r text-mining

我正在处理一个数据集,其中包含一堆原始文本,我在其矩阵中进行矢量化并在随机森林回归中使用。我的问题是,如果它是一个稀疏矩阵,我应该将每个单词视为.factor还是.numeric?哪一个加快了计算时间?

1 个答案:

答案 0 :(得分:0)

我的理解是R矩阵将因素强加给角色,因此您最好使用数字。

我对RandomForest并不十分熟悉 - 我对它的作用有一个大概的了解,但我不确定它的R实现的胆量。如果您需要为其设计一个矩阵(例如,手动实现ANOVA或GLM时如何工作),您可以尝试使用ChromeOptions函数。