数据框子集保留来自父数据框的信息

时间:2018-11-23 18:12:22

标签: r

我认为这是data.frame()中的功能,但是它在评估某些软件包的训练和测试集方面存在很多问题。例如,如果您使用h2o进行机器学习,导入数据集并基于数据的一些随机样本对数据框进行子集化,则h2o模型构建器将可以访问具有所有因子水平和所有数据的FULL原始数据框。这样,如果您尝试使用类似h2o.predict(model,newdata = dataset [test,])的方法,则您的预测将简单地复制数据集中的响应(已针对深度学习模型进行了测试)。您可以在下面看到因子保留:

print(type(lst[:1])) # -> <class 'list'>
for x,y in lst[:1]:
    print(y,x)

现在,我已经能够解决因素信息保留问题,但是我不确定如何从新子集中的父数据框中删除信息。有人有什么想法吗?

编辑:对于任何遇到因素问题的人,就像应用函数droplevels()一样简单。

0 个答案:

没有答案