Question

我正在使用具有99个级别的分类因变量（每个级别对应一个国家）进行分类任务

我正在使用决策树，看来我的层数不能超过32个，因此我需要减少层数。我当时正在考虑通过相似性对国家进行聚类，以便基于我拥有的200个变量（v1，v2，v3 ...）对相似的国家进行分组。

我当时正在考虑使用UMAP来降低数据集的维数，然后将这些国家/地区分组在一起（例如，挪威+瑞典，老挝+柬埔寨或其他任何国家），但是这样做有些困难，这是什么到目前为止，我（正在处理一个子样本），我试图绘制它，但是对我来说并没有多大意义

data = sample_n(surveydata, 15000)
cluster.data = data[, grep("v", colnames(surveydata))]
library(umap)

data.umap = umap(cluster.data)
plot(data.umap$layout, col=data$Nationality)

（国籍是我必须预测的具有99个水平的分类变量）

您知道我可以使用哪种方法将水平降低到32以下吗？

预先感谢您的帮助！

尝试降低我要预测的分类变量的水平（在R上）

0 个答案: