适用于此数据集的数据挖掘技术

时间:2012-09-29 09:52:09

标签: attributes data-mining classification rapidminer

我正在开发一个数据挖掘项目,并希望挖掘这个数据集Higher Education Enrolments以获得有趣的模式或知识。我的问题是弄清楚哪种技术最适合数据集。

我目前正在使用RapidMiner 5.0处理数据集,我从数据中删除了两列(E550 - 参考年份,E931 - 学生总EFTSL),因为它们与分析无关。除了我用作 id 的StudentID(整数)之外,其余的属性都是名义上的。我目前正在使用它的分类(Naive Bayes),但想得到其他人的意见,希望那些在这方面有更多经验的人。感谢。

2 个答案:

答案 0 :(得分:0)

最好的技术取决于许多因素:训练的类型/分布和目标属性,领域,属性的值范围等。使用的最佳技术是数据分析和理解的结果。

在这种特殊情况下,您应该澄清哪个是要预测的属性。

答案 1 :(得分:0)

除非您已经知道自己在寻找什么,并且了解数据源的质量,否则您应该首先尝试各种探索性分析:

  • 查看所有的一些和第二顺序统计信息 变量
  • 生成每个变量的直方图,以了解经验 分发每个
  • 查看可能具有的变量的成对散点图 依赖
  • 尝试您可能会想到的其他可视化

这些可以让您大致了解可能存在哪种模式,并且可以在噪声级别下发现。然后,根据您感兴趣的模式,您可以开始尝试各种无监督模式学习方法,如PCA / ICA /因子分析,聚类或监督方法,如回归,分类。