困惑重新:pandas数据帧切片警告

时间:2016-08-08 17:45:03

标签: python pandas chained-assignment

我已经查看了一系列与此问题相关的问题和答案,但我仍然发现我在我不知道的地方收到了这个片段警告的副本期待它。此外,它在我之前运行正常的代码中出现,让我想知道某种更新是否可能是罪魁祸首。

例如,这是一组代码,我所做的就是将Excel文件读入pandas DataFrame,并减少df[[]]中包含的列集句法。

 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60','MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5','MC_OLD_18>F>5',
               'MC_OLD_M_Child<5','MC_OLD_F_Child<5','MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery','Date to insert','Date of Entery']]

现在,我对此izmir_lim文件所做的任何进一步更改都会引发切片警告的副本。

izmir_lim['Age'] = izmir_lim.Age.fillna(0)
izmir_lim['Age'] = izmir_lim.Age.astype(int)
  

/Users/samlilienfeld/anaconda/lib/python3.5/site-packages/ipykernel/的的.py:2:   SettingWithCopyWarning:尝试在a的副本上设置值   从DataFrame切片。尝试使用.loc [row_indexer,col_indexer] =   代替值

我感到困惑,因为我认为df[[]]列子集默认返回了一个副本。我发现抑制错误的唯一方法是明确添加df[[]].copy()。我本来可以发誓,过去我没有那么做,也没有提出切片错误的副本。

同样,我还有一些其他代码在数据帧上运行一个函数,以某种方式对其进行过滤:

def lim(df):
if (geography == "All"):
    df_geo = df
else:
    df_geo = df[df.center_JO == geography]

df_date = df_geo[(df_geo.date_survey >= start_date) & (df_geo.date_survey <= end_date)]

return df_date

df_lim = lim(df)

从现在开始,我对df_lim的任何值所做的任何更改都会引发切片错误的副本。我发现的唯一方法是将函数调用更改为:

df_lim = lim(df).copy()

这对我来说似乎不对。我错过了什么?看起来这些用例应该默认返回副本,我可以发誓上次运行这些脚本时我没有遇到这些错误。
我只需要开始在所有地方添加.copy()吗?似乎应该有一个更清洁的方法来做到这一点。任何见解或帮助都非常感谢。

1 个答案:

答案 0 :(得分:16)

 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']]

izmir_limizmir的视图/副本。您随后尝试分配给它。这就是抛出错误的原因。请改用:

 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']].copy()

每当您以下列方式“创建”来自另一个的新数据框时:

new_df = old_df[list_of_columns_names]

new_dfis_copy属性中会有一个真值。当您尝试分配给它时,pandas会抛出SettingWithCopyWarning

new_df.iloc[0, 0] = 1  # Should throw an error

你可以通过多种方式克服这一点。

选项#1

new_df = old_df[list_of_columns_names].copy()

选项#2(正如@ayhan在评论中建议的那样)

new_df = old_df[list_of_columns_names]
new_df.is_copy = None

选项#3

new_df = old_df.loc[:, list_of_columns_names]