我正在使用具有99个级别的分类因变量(每个级别对应一个国家)进行分类任务
我正在使用决策树,看来我的层数不能超过32个,因此我需要减少层数。我当时正在考虑通过相似性对国家进行聚类,以便基于我拥有的200个变量(v1,v2,v3 ...)对相似的国家进行分组。
我当时正在考虑使用UMAP来降低数据集的维数,然后将这些国家/地区分组在一起(例如,挪威+瑞典,老挝+柬埔寨或其他任何国家),但是这样做有些困难,这是什么到目前为止,我(正在处理一个子样本),我试图绘制它,但是对我来说并没有多大意义
data = sample_n(surveydata, 15000)
cluster.data = data[, grep("v", colnames(surveydata))]
library(umap)
data.umap = umap(cluster.data)
plot(data.umap$layout, col=data$Nationality)
(国籍是我必须预测的具有99个水平的分类变量)
您知道我可以使用哪种方法将水平降低到32以下吗?
预先感谢您的帮助!