进行正确数据分析的步骤

时间:2019-04-21 11:36:46

标签: r missing-data imputation train-test-split

我有一个69列和50000行的数据集。 我的数据集仅包含二进制变量和数值变量。而且,一些二进制变量具有一些缺失值(大约5%)。

我知道我应该将数据集划分为Train-test-validation,然后执行插补(我想通过方法logreg使用鼠标)。 我对此有一些疑问:

  1. 我应该只对训练集还是对测试和验证集进行插补?如果没有,如何在测试和验证集中填写NA?

  2. 我的教授告诉我,应该减少数据集的尺寸。我可以使用PCA来做到这一点吗?在插补之前或之后我必须这样做吗?而且我是否必须仅将其应用于火车测试或其他两组?

  3. 我也尝试过使用鼠标,但是它在我的数据集上的运行速度令人难以置信(需要大约50分钟的时间才能估算一半的数据)。您知道有什么方法可以加快此过程吗? (我在此论坛上已阅读过有关quickpred()之类的方法的信息,但它需要指定最小相关性,而我对数据集的最小相关性并不了解。

1 个答案:

答案 0 :(得分:0)

我个人会这样做:

  1. 是的,我将在拆分数据集之前估算值。
  2. 在估算完数据后,我将降低维度,并删除接近零的方差预测变量。
  3. 我将使用软件包"workbench.tree.indent": 40 Check this out。所有这些操作都可以在caret调用中完成,并使用一行train