我有一个69列和50000行的数据集。 我的数据集仅包含二进制变量和数值变量。而且,一些二进制变量具有一些缺失值(大约5%)。
我知道我应该将数据集划分为Train-test-validation,然后执行插补(我想通过方法logreg
使用鼠标)。
我对此有一些疑问:
我应该只对训练集还是对测试和验证集进行插补?如果没有,如何在测试和验证集中填写NA?
我的教授告诉我,应该减少数据集的尺寸。我可以使用PCA来做到这一点吗?在插补之前或之后我必须这样做吗?而且我是否必须仅将其应用于火车测试或其他两组?
我也尝试过使用鼠标,但是它在我的数据集上的运行速度令人难以置信(需要大约50分钟的时间才能估算一半的数据)。您知道有什么方法可以加快此过程吗? (我在此论坛上已阅读过有关quickpred()
之类的方法的信息,但它需要指定最小相关性,而我对数据集的最小相关性并不了解。
答案 0 :(得分:0)
我个人会这样做:
"workbench.tree.indent": 40
。 Check this out。所有这些操作都可以在caret
调用中完成,并使用一行train