应用错误收集

适用于此数据集的数据挖掘技术

时间：2012-09-29 09:52:09

标签： attributes data-mining classification rapidminer

我正在开发一个数据挖掘项目，并希望挖掘这个数据集Higher Education Enrolments以获得有趣的模式或知识。我的问题是弄清楚哪种技术最适合数据集。

我目前正在使用RapidMiner 5.0处理数据集，我从数据中删除了两列（E550 - 参考年份，E931 - 学生总EFTSL），因为它们与分析无关。除了我用作 id 的StudentID（整数）之外，其余的属性都是名义上的。我目前正在使用它的分类（Naive Bayes），但想得到其他人的意见，希望那些在这方面有更多经验的人。感谢。

2 个答案:

答案 0 :(得分：0)

最好的技术取决于许多因素：训练的类型/分布和目标属性，领域，属性的值范围等。使用的最佳技术是数据分析和理解的结果。

在这种特殊情况下，您应该澄清哪个是要预测的属性。

答案 1 :(得分：0)

除非您已经知道自己在寻找什么，并且了解数据源的质量，否则您应该首先尝试各种探索性分析：

查看所有的一些和第二顺序统计信息变量
生成每个变量的直方图，以了解经验分发每个
查看可能具有的变量的成对散点图依赖
尝试您可能会想到的其他可视化

这些可以让您大致了解可能存在哪种模式，并且可以在噪声级别下发现。然后，根据您感兴趣的模式，您可以开始尝试各种无监督模式学习方法，如PCA / ICA /因子分析，聚类或监督方法，如回归，分类。