Question

我正在学习一些熊猫/ ML类型的东西。现在我正在做一个Kaggle教程，我们给出的示例数据有很多功能。我怀疑其中一些功能会给模型增加噪音而不是帮助。因此，我想将几个模型应用于具有所有功能的数据（如教程中所示），并将其分数记录为基线。然后，我想一次删除一个功能，并在没有这个功能的情况下对数据使用相同的模型，并比较分数。

最好的方法是什么？天真的，我只是为每个删除的功能制作不同的数据集副本，但是copy（）在pandas中有点令人困惑（在版本0.20中，it says默认情况下它会进行深层复制，应该是正是我想要的，对吧？没有连接/引用原件的副本？）。我尝试了它，似乎并没有真正制作副本。

有更好的方法吗？谢谢。

Answer 1

使用for循环。

variables = locals()
feature=['A','B','C']
for i in feature:
    variables["dfremoved{0}".format(i)] = df.drop(i,axis=1)

    ''' Do your fit and predict here within the for loop'''

在pandas中处理不同版本的DataFrame最安全的方法是什么？

1 个答案: