尝试降低我要预测的分类变量的水平(在R上)

时间:2019-01-27 14:06:04

标签: r machine-learning statistics classification multiclass-classification

我正在使用具有99个级别的分类因变量(每个级别对应一个国家)进行分类任务

我正在使用决策树,看来我的层数不能超过32个,因此我需要减少层数。我当时正在考虑通过相似性对国家进行聚类,以便基于我拥有的200个变量(v1,v2,v3 ...)对相似的国家进行分组。

我当时正在考虑使用UMAP来降低数据集的维数,然后将这些国家/地区分组在一起(例如,挪威+瑞典,老挝+柬埔寨或其他任何国家),但是这样做有些困难,这是什么到目前为止,我(正在处理一个子样本),我试图绘制它,但是对我来说并没有多大意义

data = sample_n(surveydata, 15000)
cluster.data = data[, grep("v", colnames(surveydata))]
library(umap)

data.umap = umap(cluster.data)
plot(data.umap$layout, col=data$Nationality)

(国籍是我必须预测的具有99个水平的分类变量)

您知道我可以使用哪种方法将水平降低到32以下吗?

预先感谢您的帮助!

0 个答案:

没有答案