r - 进行正确数据分析的步骤 - Thinbug

进行正确数据分析的步骤

时间：2019-04-21 11:36:46

标签： r missing-data imputation train-test-split

我有一个69列和50000行的数据集。我的数据集仅包含二进制变量和数值变量。而且，一些二进制变量具有一些缺失值（大约5％）。

我知道我应该将数据集划分为Train-test-validation，然后执行插补（我想通过方法logreg使用鼠标）。我对此有一些疑问：

我应该只对训练集还是对测试和验证集进行插补？如果没有，如何在测试和验证集中填写NA？
我的教授告诉我，应该减少数据集的尺寸。我可以使用PCA来做到这一点吗？在插补之前或之后我必须这样做吗？而且我是否必须仅将其应用于火车测试或其他两组？
我也尝试过使用鼠标，但是它在我的数据集上的运行速度令人难以置信（需要大约50分钟的时间才能估算一半的数据）。您知道有什么方法可以加快此过程吗？（我在此论坛上已阅读过有关quickpred()之类的方法的信息，但它需要指定最小相关性，而我对数据集的最小相关性并不了解。

1 个答案:

答案 0 :(得分：0)

我个人会这样做：

是的，我将在拆分数据集之前估算值。
在估算完数据后，我将降低维度，并删除接近零的方差预测变量。
我将使用软件包"workbench.tree.indent": 40。 Check this out。所有这些操作都可以在caret调用中完成，并使用一行train