应用错误收集

预处理匿名数据以进行预测分析的步骤是什么？

时间：2015-09-21 20:35:33

标签： data-mining

假设我们有一个匿名数据的大型数据集。数据集由若干个变量和观察组成。我们所有可以了解的数据都是变量的类型（数字，字符，日期等）。我们可以通过手动查看数据来实现。为了进一步分析，预处理数据集的最佳实践步骤是什么？

例如，让这个数据集只是一个表，所以我们不需要检查表之间的任何关系。

1 个答案:

答案 0 :(得分：0)

This link提供了目前正在实施的完整验证集。不过，首先要说：

尽可能使用首选编程语言的方法/构造函数，以尽可能快速且轻松地解析数据的方式编写数据;
您可以验证所有数据类型是否正确匹配 - 例如int字段不包含字符串数据等;
您可以验证您的值是否在可接受的范围内;
检查非可空字段是否具有空值;
检查日期是否在预期范围内;
检查数据是否符合正确的 set-membership 约束;
如果您有类似电话号码的数据模式，请确保它们在（XXX）XXX-XXXX设计中，如果您喜欢这种方式;
是正确准确度的邮政编码（在美国，您可能有5或9位数的准确度）;
如果您的数据是时间序列，是否完整（即您有所有日期的值）？
是否有任何不需要的重复？

希望这足以让你开始......