我正在处理一个数据集,其中包含一堆原始文本,我在其矩阵中进行矢量化并在随机森林回归中使用。我的问题是,如果它是一个稀疏矩阵,我应该将每个单词视为.factor还是.numeric?哪一个加快了计算时间?
答案 0 :(得分:0)
我的理解是R矩阵将因素强加给角色,因此您最好使用数字。
我对RandomForest并不十分熟悉 - 我对它的作用有一个大概的了解,但我不确定它的R实现的胆量。如果您需要为其设计一个矩阵(例如,手动实现ANOVA或GLM时如何工作),您可以尝试使用ChromeOptions
函数。