良好的预处理数据集

时间:2011-10-31 02:27:16

标签: preprocessor machine-learning data-mining

我参加了数据挖掘的本科课程,并且我已经完成了对数据挖掘预处理器进行编码的任务。我可以自由选择编程语言和数据集。我想知道是否有人可以建议使用一个好的数据集。我一直在浏览UCI Repository,我发现了更多这样的资源。但作为初学者,我不确定哪个数据集是一个不错的选择。预处理器应该处理以下内容:

  • 数据清理
    • 缺少值
    • 错误
    • 离群值
    • Nomralization
    • 去重
  • 数据缩减
    • 采样技术
    • 维度降低

选择数据集时,我应该考虑哪些属性?您建议的任何特定数据集?

1 个答案:

答案 0 :(得分:1)

你回答了自己的问题。选择具有您提到的属性的数据集列表,因为UCI存储库具有分类数据集。你可以选择任何人开始玩它。

首先,如果我是你,我会继续前进,了解每一个看起来如何及其对分类器性能的影响,并选择一些热门数据集作为它们在大多数研究论文中用作基准数据集。你列出的很多都是单独的机器学习问题,正在进行大量的研究。

我会从这样的事情开始:
缺失值:虹膜,投票,心脏疾病
复制: 921,810首歌曲数据集(我认为不是UCI)
标准化:具有不同范围的任何连续值数据集 采样技术: Pima
尺寸减少: Swiss Roll

此外,寻找数据集的另一个最佳方法是参考一些相应的出版物。例如,为了减少维数,你可以查看 PCA,ISOMAP 等论文,进行抽样查看 SMOTE 论文等,看看他们用于实验的数据类型然后继续进行。