熊猫:了解操作何时影响原始数据帧

时间:2018-01-09 17:49:10

标签: python pandas views chained-assignment

我喜欢熊猫并且多年来一直在使用它并且非常自信我能够很好地处理如何对数据帧进行子集并适当地处理视图与副本(尽管我使用了很多断言来确定)。我也知道有很多关于SettingWithCopyWarning的问题,例如How to deal with SettingWithCopyWarning in Pandas? 以及一些最近的指南,当它发生时缠绕你的头,例如, Understanding SettingWithCopyWarning in pandas

但是我也知道this answer中引用的具体内容已不再出现在最新的文档中(0.22.0),并且多年来许多事情已被弃用(导致一些不合适的旧版SO答案),事情是continuing to change

最近,在教导大熊猫完成新手的基本常规Python知识,例如避免链式索引(以及使用.iloc / .loc)之后,我仍然努力提供一般的经验法则,以了解注意SettingWithCopyWarning的重要性(例如,当忽略它时是安全的)。

我个人发现根据一些规则(例如切片或布尔运算)对数据帧进行子集化的特定模式,然后修改该子集,独立于原始数据帧,比文档建议的更常见的操作。在这种情况下,我们希望修改副本而不是原始,并且警告会让新手感到困惑/恐惧。

我知道提醒视图与副本之前提前知道并非易事,例如
What rules does Pandas use to generate a view vs a copy?
Checking whether data frame is copy or view in Pandas

相反,我正在寻找更一般(初学者友好)问题的答案:何时对子集化数据框执行操作会影响创建它的原始数据帧,以及它们何时出现独立吗

我已经在下面创建了一些我认为合理的案例,但我不确定是否有一个"陷阱"我错过了,或者是否有更容易思考/检查的方法。我希望有人能证实我对以下用例的直觉是正确的,因为它与我上面的问题有关。

import pandas as pd
df1 = pd.DataFrame({'A':[2,4,6,8,10],'B':[1,3,5,7,9],'C':[10,20,30,40,50]})

1)警告:否    原始更改:否

# df1 will be unaffected because we use .copy() method explicitly 
df2 = df1.copy()
#
# Reference: docs
df2.iloc[0,1] = 100

2)警告:是的(我真的不明白为什么)
   原始更改:否

# df1 will be unaffected because .query() always returns a copy
#
# Reference:
# https://stackoverflow.com/a/23296545/8022335
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

3)警告:是
   原始更改:否

# df1 will be unaffected because boolean indexing with .loc
# always returns a copy
#
# Reference:
# https://stackoverflow.com/a/17961468/8022335
df2 = df1.loc[df1['A'] < 10,:]
df2.iloc[0,1] = 100

4)警告:否    原始更改:否

# df1 will be unaffected because list indexing with .loc (or .iloc)
# always returns a copy
#
# Reference:
# Same as 4)
df2 = df1.loc[[0,3,4],:]
df2.iloc[0,1] = 100

5)警告:否    原来的改变:是的(让新人感到困惑,但有道理)

# df1 will be affected because scalar/slice indexing with .iloc/.loc
# always references the original dataframe, but may sometimes 
# provide a view and sometimes provide a copy
#
# Reference: docs
df2 = df1.loc[:10,:]
df2.iloc[0,1] = 100

TL;博士 从原始数据框创建新数据框时,更改新数据框:
当使用.loc / .iloc 标量/切片索引创建新数据框时,会更改原始文件。
布尔索引使用.loc,.query().copy()用于创建新数据框

时,会更改原文吗?

3 个答案:

答案 0 :(得分:4)

这是熊猫的一个令人困惑甚至令人沮丧的部分,但是在大多数情况下,如果遵循一些简单的工作流程规则,您就不必为此担心。特别要注意的是,当您有两个数据帧时,这里只有两种一般情况,其中一个是另一个的子集。

在这种情况下,Python的Zen规则“显式优于隐式”是一个很好的指南。

情况A:对df2的更改不应影响df1

这当然是微不足道的。您需要两个完全独立的数据帧,因此只需显式创建一个副本:

df2 = df1.copy()

在此之后,您对df2所做的任何操作只会影响df2,而不会影响df1,反之亦然。

情况B:对df2的更改也应该影响df1

在这种情况下,我认为没有一种通用的方法可以解决问题,因为这完全取决于您要执行的操作。但是,有两种标准方法非常简单明了,应该对其工作方式没有任何歧义。

方法1:将df1复制到df2,然后使用df2更新df1

在这种情况下,基本上可以对上述示例进行一对一转换。这是示例2:

df2 = df1.copy()
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

df1 = df2.append(df1).reset_index().drop_duplicates(subset='index').drop(columns='index')

不幸的是,通过append进行的合并有点冗长。尽管它具有将整数转换为浮点数的副作用,但是您可以使用以下代码更简洁地完成此操作。

df1.update(df2)   # note that this is an inplace operation

方法2:使用遮罩(完全不要创建df2

我认为这里最好的一般方法根本不是创建df2,而应该是df1的掩蔽版本。不幸的是,由于上述代码混合了lociloc,因此您无法直接翻译上面的代码,尽管对于实际使用而言可能不现实,这对本示例来说是可以的。

优点是您可以编写非常简单易读的代码。这是示例2的替代版本,其中df2实际上只是df1的掩码版本。但是,如果列“ C” == 10,我将通过iloc进行更改。

df2_mask = df1['A'] < 10
df1.loc[ df2_mask & (df1['C'] == 10), 'B'] = 100

现在,如果您打印df1df1[df2_mask],则每个数据帧的第一行将看到列“ B” = 100。显然,这在这里并不是很令人惊讶,但这是遵循“明确胜于隐含”的固有优势。

答案 1 :(得分:0)

我有同样的疑问,过去我没有成功地搜索过这个回复。所以现在,我只是证明原始版本没有改变,并且在开始删除警告时使用这个代码的和平程序:

 import pandas as pd
 pd.options.mode.chained_assignment = None  # default='warn'

答案 2 :(得分:0)

您只需将.iloc[0,1]替换为.iat[0,1]

一般情况下,如果您只想修改一个元素,则应使用.iat.at方法。相反,当您一次修改更多元素时,应使用.loc.iloc方法。

这样做,pandas shuldn​​不会发出任何警告。

相关问题