我认为这是data.frame()中的功能,但是它在评估某些软件包的训练和测试集方面存在很多问题。例如,如果您使用h2o进行机器学习,导入数据集并基于数据的一些随机样本对数据框进行子集化,则h2o模型构建器将可以访问具有所有因子水平和所有数据的FULL原始数据框。这样,如果您尝试使用类似h2o.predict(model,newdata = dataset [test,])的方法,则您的预测将简单地复制数据集中的响应(已针对深度学习模型进行了测试)。您可以在下面看到因子保留:
print(type(lst[:1])) # -> <class 'list'>
for x,y in lst[:1]:
print(y,x)
现在,我已经能够解决因素信息保留问题,但是我不确定如何从新子集中的父数据框中删除信息。有人有什么想法吗?
编辑:对于任何遇到因素问题的人,就像应用函数droplevels()一样简单。