应用错误收集

R文本挖掘与随机森林

时间：2015-05-09 15:11:29

标签： r text-mining

我正在处理一个数据集，其中包含一堆原始文本，我在其矩阵中进行矢量化并在随机森林回归中使用。我的问题是，如果它是一个稀疏矩阵，我应该将每个单词视为.factor还是.numeric？哪一个加快了计算时间？

1 个答案:

答案 0 :(得分：0)

我的理解是R矩阵将因素强加给角色，因此您最好使用数字。

我对RandomForest并不十分熟悉 - 我对它的作用有一个大概的了解，但我不确定它的R实现的胆量。如果您需要为其设计一个矩阵（例如，手动实现ANOVA或GLM时如何工作），您可以尝试使用ChromeOptions函数。