在pandas中处理不同版本的DataFrame最安全的方法是什么?

时间:2017-10-12 15:22:13

标签: pandas dataframe

我正在学习一些熊猫/ ML类型的东西。现在我正在做一个Kaggle教程,我们给出的示例数据有很多功能。我怀疑其中一些功能会给模型增加噪音而不是帮助。因此,我想将几​​个模型应用于具有所有功能的数据(如教程中所示),并将其分数记录为基线。然后,我想一次删除一个功能,并在没有这个功能的情况下对数据使用相同的模型,并比较分数。

最好的方法是什么?天真的,我只是为每个删除的功能制作不同的数据集副本,但是copy()在pandas中有点令人困惑(在版本0.20中,it says默认情况下它会进行深层复制,应该是正是我想要的,对吧?没有连接/引用原件的副本?)。我尝试了它,似乎并没有真正制作副本。

有更好的方法吗?谢谢。

1 个答案:

答案 0 :(得分:1)

使用for循环。

variables = locals()
feature=['A','B','C']
for i in feature:
    variables["dfremoved{0}".format(i)] = df.drop(i,axis=1)

    ''' Do your fit and predict here within the for loop'''