应用错误收集

我的数据集约为。 4800行，22个属性，全部数字，主要描述岩石/矿物的几何形状，以及3个不同的类别。

我在其中使用k-nn模型进行了交叉验证，其中k = 7且数值测量 - ＆gt; Camberra距离作为参数设置..我的性能为82.53％和0.673 kappa。该结果是否代表数据集？我的意思是82％是相当不错的..

在此之前，我使用决策表评估了最佳属性子集，我得到了6个不同的属性。

问题是，你仍然没有从那种模型中学到很多东西，比如基于实例的k-nn。我可以从knn那里得到更多的见解吗？我不知道如何在Rapidminer的高维空间中可视化集群，这是不是可能？我在数据上尝试了决策树，但是我得到了太多的分支（300左右）而且看起来太乱了，问题是，所有数值属性都有大致相同的均值和分布，因此很难得到一个明确的子集有意义的属性......

理想情况下，工作人员希望“学习”有关数据的内容，但我的印象是，您无法从中学到很多有用的数据，最有效的是“Blackbox”学习模型，如神经网络，SVM和那些其他基于实例的模型...... 我该怎么办？

欢迎来到机器学习的世界！这听起来像是一个经典的现实案例：我们想得出确切的结论，但数据行不合作。： - ）

你的目标很模糊：“学点东西”？我认为这意味着你正在调查，希望在三个班级中找到定量区分。

首先，我强烈推荐主成分分析（PCA）：找出是否可以通过自动矩阵运算消除其中的一些属性，而不是手工建立的决策表。我希望凌乱的分支是由于不幸的因素选择;决策树在过度拟合时非常努力。： - ）

数据集的分离有多干净？既然你已经使用了Knn，我希望你有密集的簇与间隙。如果是这样，也许光谱聚类会有所帮助;这些方法擅长基于簇之间的间隙对数据进行分类，即使簇形状不是球形。解释取决于让工作人员能够读取特征向量，以解释这些值的含义。

尝试多类SVM。从3个课程开始，但必要时增加，直到出现3个预期课程。（有时你会得到一个小的异常类，然后两个主要的异类结合起来。）生成的内核函数和间隙的位置可以教你一些关于你的数据。

尝试朴素贝叶斯家族，特别是如果您发现这些特征来自高斯分布或伯努利分布。

作为一种整体方法，尝试使用神经网络，但使用某些东西来观察神经元和重量。让人类视觉皮层与关系一起玩可以帮助提取微妙的关系。

高数值维数据的最佳学习模型？（使用Rapidminer）

1 个答案:

高数值维数据的最佳学习模型？ （使用Rapidminer）

1 个答案:

高数值维数据的最佳学习模型？（使用Rapidminer）