我需要从随机森林中获取一个接近度矩阵作为一种不相似度度量,以供输入到我的聚类算法中。我使用了以下代码:
rf.fit<-randomForest(x = trip, y = NULL, ntree = 10000,
proximity = TRUE, norm.votes=FALSE)
此代码适用于所有较小的数据集,但是在这种情况下,如果我的数据超过47500行,则会出现以下错误: “ randomForest.default中的错误: .C不支持长向量(参数18)” 我还使用一台服务器来运行分配高RAM(125G)的代码,但该错误反复出现。 在这些帖子“ Issue with randomForest & long vectors和“ Combining random forests built with different training sets in R”之后,我使用Combine和my_combine运行了我的代码,但是在两种情况下,我得到的距离矩阵都比数据集小得多。
我查看了h2o.randomforest,但似乎它没有提供邻近矩阵。 非常感谢您对此的想法。