高数值维数据的最佳学习模型? (使用Rapidminer)

时间:2016-06-29 07:52:38

标签: machine-learning classification data-modeling rapidminer

我的数据集约为。 4800行,22个属性,全部数字,主要描述岩石/矿物的几何形状,以及3个不同的类别。

我在其中使用k-nn模型进行了交叉验证,其中k = 7且数值测量 - > Camberra距离作为参数设置..我的性能为82.53%和0.673 kappa。该结果是否代表数据集?我的意思是82%是相当不错的..

在此之前,我使用决策表评估了最佳属性子集,我得到了6个不同的属性。

问题是,你仍然没有从那种模型中学到很多东西,比如基于实例的k-nn。我可以从knn那里得到更多的见解吗?我不知道如何在Rapidminer的高维空间中可视化集群,这是不是可能? 我在数据上尝试了决策树,但是我得到了太多的分支(300左右)而且看起来太乱了,问题是,所有数值属性都有大致相同的均值和分布,因此很难得到一个明确的子集有意义的属性......

理想情况下,工作人员希望“学习”有关数据的内容,但我的印象是,您无法从中学到很多有用的数据,最有效的是“Blackbox”学习模型,如神经网络,SVM和那些其他基于实例的模型...... 我该怎么办?

1 个答案:

答案 0 :(得分:0)

欢迎来到机器学习的世界!这听起来像是一个经典的现实案例:我们想得出确切的结论,但数据行不合作。 : - )

你的目标很模糊:“学点东西”?我认为这意味着你正在调查,希望在三个班级中找到定量区分。

首先,我强烈推荐主成分分析(PCA):找出是否可以通过自动矩阵运算消除其中的一些属性,而不是手工建立的决策表。我希望凌乱的分支是由于不幸的因素选择;决策树在过度拟合时非常努力。 : - )

数据集的分离有多干净?既然你已经使用了Knn,我希望你有密集的簇与间隙。如果是这样,也许光谱聚类会有所帮助;这些方法擅长基于簇之间的间隙对数据进行分类,即使簇形状不是球形。解释取决于让工作人员能够读取特征向量,以解释这些值的含义。

尝试多类SVM。从3个课程开始,但必要时增加,直到出现3个预期课程。 (有时你会得到一个小的异常类,然后两个主要的异类结合起来。)生成的内核函数和间隙的位置可以教你一些关于你的数据。

尝试朴素贝叶斯家族,特别是如果您发现这些特征来自高斯分布或伯努利分布。

作为一种整体方法,尝试使用神经网络,但使用某些东西来观察神经元和重量。让人类视觉皮层与关系一起玩可以帮助提取微妙的关系。