预处理匿名数据以进行预测分析的步骤是什么?

时间:2015-09-21 20:35:33

标签: data-mining

假设我们有一个匿名数据的大型数据集。数据集由若干个变量和观察组成。我们所有可以了解的数据都是变量的类型(数字,字符,日期等)。我们可以通过手动查看数据来实现。 为了进一步分析,预处理数据集的最佳实践步骤是什么?

例如,让这个数据集只是一个表,所以我们不需要检查表之间的任何关系。

1 个答案:

答案 0 :(得分:0)

This link提供了目前正在实施的完整验证集。不过,首先要说:

  • 尽可能使用首选编程语言的方法/构造函数,以尽可能快速且轻松地解析数据的方式编写数据;
  • 您可以验证所有数据类型是否正确匹配 - 例如int字段不包含字符串数据等;
  • 您可以验证您的值是否在可接受的范围内;
  • 检查非可空字段是否具有空值;
  • 检查日期是否在预期范围内;
  • 检查数据是否符合正确的 set-membership 约束;
  • 如果您有类似电话号码的数据模式,请确保它们在(XXX)XXX-XXXX设计中,如果您喜欢这种方式;
  • 是正确准确度的邮政编码(在美国,您可能有5或9位数的准确度);
  • 如果您的数据是时间序列,是否完整(即您有所有日期的值)?
  • 是否有任何不需要的重复?

希望这足以让你开始......