Question

我认为这是data.frame（）中的功能，但是它在评估某些软件包的训练和测试集方面存在很多问题。例如，如果您使用h2o进行机器学习，导入数据集并基于数据的一些随机样本对数据框进行子集化，则h2o模型构建器将可以访问具有所有因子水平和所有数据的FULL原始数据框。这样，如果您尝试使用类似h2o.predict（model，newdata = dataset [test，]）的方法，则您的预测将简单地复制数据集中的响应（已针对深度学习模型进行了测试）。您可以在下面看到因子保留：

print(type(lst[:1])) # -> <class 'list'>
for x,y in lst[:1]:
    print(y,x)

现在，我已经能够解决因素信息保留问题，但是我不确定如何从新子集中的父数据框中删除信息。有人有什么想法吗？

编辑：对于任何遇到因素问题的人，就像应用函数droplevels（）一样简单。

数据框子集保留来自父数据框的信息

0 个答案: