Question

我需要从随机森林中获取一个接近度矩阵作为一种不相似度度量，以供输入到我的聚类算法中。我使用了以下代码：

rf.fit<-randomForest(x = trip, y = NULL, ntree = 10000, 
        proximity = TRUE, norm.votes=FALSE)

此代码适用于所有较小的数据集，但是在这种情况下，如果我的数据超过47500行，则会出现以下错误： “ randomForest.default中的错误： .C不支持长向量（参数18）” 我还使用一台服务器来运行分配高RAM（125G）的代码，但该错误反复出现。在这些帖子“ Issue with randomForest & long vectors和“ Combining random forests built with different training sets in R”之后，我使用Combine和my_combine运行了我的代码，但是在两种情况下，我得到的距离矩阵都比数据集小得多。

我查看了h2o.randomforest，但似乎它没有提供邻近矩阵。非常感谢您对此的想法。

使用randomForest的大型数据集的接近矩阵

0 个答案: