我正在开发一个数据挖掘项目,并希望挖掘这个数据集Higher Education Enrolments以获得有趣的模式或知识。我的问题是弄清楚哪种技术最适合数据集。
我目前正在使用RapidMiner 5.0处理数据集,我从数据中删除了两列(E550 - 参考年份,E931 - 学生总EFTSL),因为它们与分析无关。除了我用作 id 的StudentID(整数)之外,其余的属性都是名义上的。我目前正在使用它的分类(Naive Bayes),但想得到其他人的意见,希望那些在这方面有更多经验的人。感谢。
答案 0 :(得分:0)
最好的技术取决于许多因素:训练的类型/分布和目标属性,领域,属性的值范围等。使用的最佳技术是数据分析和理解的结果。
在这种特殊情况下,您应该澄清哪个是要预测的属性。
答案 1 :(得分:0)
除非您已经知道自己在寻找什么,并且了解数据源的质量,否则您应该首先尝试各种探索性分析:
这些可以让您大致了解可能存在哪种模式,并且可以在噪声级别下发现。然后,根据您感兴趣的模式,您可以开始尝试各种无监督模式学习方法,如PCA / ICA /因子分析,聚类或监督方法,如回归,分类。