在迭代期间修改数据框的行为不一致

时间:2018-07-26 19:23:35

标签: python python-3.x pandas

我有两个非常相似的迭代循环,一个循环符合我的预期,另一个则没有。我的问题是什么使第二个与第一个不同,为什么这会改变循环的行为?谢谢

工作循环

我正在使用数据帧drugs_tall中名为date_of_birth的列。 > list(drugs_tall.loc[0:5,'date_of_birth']) ['10271964', '08161951', '08241965', '01211959', '12061956', '10041987'] 中的值如下所示:

import numpy as np


for index, row in drugs_tall.iterrows():
    date_string = row['date_of_birth']
    print(date_string)
    if pd.isnull(row['date_of_birth']) == False:
        month_day, year = re.findall('....', date_string)
        month, day = re.findall('..', month_day)
        format_date = year + '-' + month + '-' + day
        run_date = datetime.strptime(format_date, '%Y-%m-%d')           
        row['date_of_birth'] = run_date
    else:
        row['date_of_birth'] = np.nan

我这样更改该列:

date_of_birth

运行上述命令后,我检查> list(drugs_tall.loc[0:5,'date_of_birth']) [datetime.datetime(1964, 10, 27, 0, 0), datetime.datetime(1951, 8, 16, 0, 0), datetime.datetime(1965, 8, 24, 0, 0), datetime.datetime(1959, 1, 21, 0, 0), datetime.datetime(1956, 12, 6, 0, 0), datetime.datetime(1987, 10, 4, 0, 0)] 的值:

datetime

我们可以看到我的日期现在是drugs_merged个对象,很好!

无效循环

这次,我在名为date_of_visit的数据框中处理三列

  • 初始日期:diff_from_baseline_days
  • 我要从初始日期减去的天数:format_start_date
  • 相减的结果:> list(drugs_merged.loc[21:25,'date_of_visit']) [Timestamp('2011-10-12 00:00:00'), Timestamp('2011-10-13 00:00:00'), Timestamp('2011-10-13 00:00:00'), Timestamp('2011-10-20 00:00:00'), Timestamp('2011-10-24 00:00:00')] > list(drugs_merged.loc[21:25,'diff_from_baseline_days']) [42, 60.84, '', '', 182.52] > list(drugs_merged.loc[21:25,'format_start_date']) ['', '', datetime.datetime(2001, 1, 1, 0, 0), datetime.datetime(2004, 1, 1, 0, 0), '']

检查。 。

format_start_date

我现在尝试更改'''',而其他两列不是from datetime import timedelta #drugs_merged['placeholder'] = "" for index, row in drugs_merged.iterrows(): if ((row['date_of_visit'] != "") & (row['diff_from_baseline_days'] != "") & (row['format_start_date'] == "") ): patient = row['visit_id'] #print(patient) delta = pd.Timedelta(row['diff_from_baseline_days'], unit = 'd') print(delta) date = row['date_of_visit'] print(date) start_date = date - delta print(start_date) row['format_start_date'] = start_date print(row['format_start_date'])

drugs_merged.loc[21,'diff_from_baseline_days']

我对第21行(上面的42 days 00:00:00 2011-10-12 00:00:00 2011-08-31 00:00:00 2011-08-31 00:00:00 )的调试打印语句的结果是:

format_start_date

因此我们可以看到计算正确地进行了。

检查drugs_merged是否已填充到原始format_start_date中,我们可以看到> list(drugs_merged.loc[21:25,'format_start_date']) ['', '', datetime.datetime(2001, 1, 1, 0, 0), datetime.datetime(2004, 1, 1, 0, 0), ''] 未被更改!

{{1}}

现在要重复我的问题,因为您已将其置于文本墙的底部...是什么使第二个与第一个不同,为什么这会改变循环的行为?

再次感谢您

2 个答案:

答案 0 :(得分:2)

the docs for df.iterrows

  
      
  1. 您应该切勿修改要迭代的内容。   不能保证在所有情况下都能正常工作。取决于   数据类型,迭代器返回一个副本而不是一个视图,并写入   不会有效果。
  2.   

因此,您永远不应依靠修改row来影响df。它在第一种情况下有效,因为row恰好是那里的df的视图,但是在第二种情况下却无效,因为row原来是副本。 Pandas API确实指定了df.iterrows何时返回视图或副本,因此您永远不应依赖row作为视图。

我们需要找到其他方式来编写代码。实际上,由于iterrows是操纵Pandas DataFrame的最慢方法之一(因为它忽略了Pandas在争取更好性能方面的主要武器-逐列矢量化计算),因此我们应该更加积极地寻找一个不同的方式。

幸运的是,可以对循环进行矢量化处理

mask = ((drugs_merged['date_of_visit'] != "") 
        & (drugs_merged['diff_from_baseline_days'] != "") 
        & (drugs_merged['format_start_date'] == "") )

patients = drugs_merged['visit_id']
deltas = pd.to_timedelta(drugs_merged['diff_from_baseline_days'], unit='d')
dates = drugs_merged['date_of_visit']
start_dates = dates - deltas
drugs_merged.loc[mask, 'format_start_date'] = start_dates

请注意,您也可以屏蔽计算的每个步骤(而不是仅屏蔽最终分配):

mask = ((drugs_merged['date_of_visit'] != "") 
        & (drugs_merged['diff_from_baseline_days'] != "") 
        & (drugs_merged['format_start_date'] == "") )

patients = drugs_merged.loc[mask, 'visit_id']
deltas = pd.to_timedelta(drugs_merged.loc[mask, 'diff_from_baseline_days'], unit='d')
dates = drugs_merged.loc[mask, 'date_of_visit']
start_dates = dates - deltas
drugs_merged.loc[mask, 'format_start_date'] = start_dates

根据mask中True / False值的比率,此速度可能更快,也可能不会更快。 每个df.loc[mask, ...]都会生成df的一部分的副本。复制可能是一项昂贵的操作。如果mask由99%的True组成,那么浪费大量时间来复制drugs_merged的部分,这是避免在False部分进行计算的很小的优势。另一方面,如果mask由1%的True组成,那么进行少量复制将有助于避免对许多False部分进行不必要的计算。

因此使用未屏蔽版本(代码的第一块)还是完全屏蔽版本(第二块)是否有利取决于mask的性质。


这是一个演示问题(以及各种行为)的玩具示例 您正在看到):

当DataFrame中的所有值都是字符串时,dtype是同质的。基础数据驻留在具有相同同型dtype的单个NumPy数组中,可以将其切成视图行。因此,row是视图:

import pandas as pd

df1 = pd.DataFrame([('X','2018-7-26','fail'),
                    ('Y','','fail')], columns=list('ABC'))
for idx, row in df1.iterrows():
    row['C'] = 'success'
print(df1)

收益

   A          B        C
0  X  2018-7-26  success
1  Y             success

当我们使用pd.to_datetime将日期字符串转换为时间戳时,一列的dtype从object变为datetime64[ns]。现在,基础数据至少驻留在两个块中-一个块的类型为dtype object,另一个块的类型为dtype datetime64[ns]。 (块只能具有单个dtype。根据您对DataFrame执行的操作,“未合并”的DataFrame可能会出现两个具有相同dtype的块。在这种奇怪的极端情况下,即使DataFrame具有同质dtype, row s仍然是我的副本...)。现在要生成row,需要将基础数据复制到dtype object的新系列中。由于row现在是副本,因此修改row无法修改df2

df2 = pd.DataFrame([('X','2018-7-26','fail'),
                    ('Y','','fail')], columns=list('ABC'))
df2['B'] = pd.to_datetime(df2['B'])
for idx, row in df2.iterrows():
    row['C'] = 'success'
print(df2)

收益

   A          B     C
0  X 2018-07-26  fail
1  Y        NaT  fail

但是,如果我们要保持df3的同质dtype(例如所有字符串),那么row是一个视图,因此在循环内修改row会修改{{1} }:

df3

收益

df3 = pd.DataFrame([('X','2018-7-26','fail'),
                    ('Y','','fail')], columns=list('ABC'))
for idx, row in df3.iterrows():
    row['B'] = pd.Timestamp(row['B'])
    row['C'] = 'success'
print(df3)

答案 1 :(得分:1)

所选答案最佳。请查看该答案中的玩具示例及其下面的注释,以了解以下示例为何起作用,但不应使用。

因此,为了在非运算循环中进行日期数学运算,我以前将$users = DB::table('users') ->join('roles', 'users.role', '=', 'roles.id') ->select('users.*', 'roles.name') ->get(); 转换为users.name对象,如下所示:

drugs_merged['date_of_visit']

在迭代过程中而不是在解决问题之前进行此操作:

datetime