我有两个非常相似的迭代循环,一个循环符合我的预期,另一个则没有。我的问题是什么使第二个与第一个不同,为什么这会改变循环的行为?谢谢
我正在使用数据帧drugs_tall
中名为date_of_birth
的列。 > list(drugs_tall.loc[0:5,'date_of_birth'])
['10271964', '08161951', '08241965', '01211959', '12061956', '10041987']
中的值如下所示:
import numpy as np
for index, row in drugs_tall.iterrows():
date_string = row['date_of_birth']
print(date_string)
if pd.isnull(row['date_of_birth']) == False:
month_day, year = re.findall('....', date_string)
month, day = re.findall('..', month_day)
format_date = year + '-' + month + '-' + day
run_date = datetime.strptime(format_date, '%Y-%m-%d')
row['date_of_birth'] = run_date
else:
row['date_of_birth'] = np.nan
我这样更改该列:
date_of_birth
运行上述命令后,我检查> list(drugs_tall.loc[0:5,'date_of_birth'])
[datetime.datetime(1964, 10, 27, 0, 0),
datetime.datetime(1951, 8, 16, 0, 0),
datetime.datetime(1965, 8, 24, 0, 0),
datetime.datetime(1959, 1, 21, 0, 0),
datetime.datetime(1956, 12, 6, 0, 0),
datetime.datetime(1987, 10, 4, 0, 0)]
的值:
datetime
我们可以看到我的日期现在是drugs_merged
个对象,很好!
这次,我在名为date_of_visit
的数据框中处理三列
diff_from_baseline_days
format_start_date
> list(drugs_merged.loc[21:25,'date_of_visit'])
[Timestamp('2011-10-12 00:00:00'),
Timestamp('2011-10-13 00:00:00'),
Timestamp('2011-10-13 00:00:00'),
Timestamp('2011-10-20 00:00:00'),
Timestamp('2011-10-24 00:00:00')]
> list(drugs_merged.loc[21:25,'diff_from_baseline_days'])
[42, 60.84, '', '', 182.52]
> list(drugs_merged.loc[21:25,'format_start_date'])
['',
'',
datetime.datetime(2001, 1, 1, 0, 0),
datetime.datetime(2004, 1, 1, 0, 0),
'']
检查。 。
format_start_date
我现在尝试更改''
时''
,而其他两列不是from datetime import timedelta
#drugs_merged['placeholder'] = ""
for index, row in drugs_merged.iterrows():
if ((row['date_of_visit'] != "") & (row['diff_from_baseline_days'] != "") & (row['format_start_date'] == "") ):
patient = row['visit_id']
#print(patient)
delta = pd.Timedelta(row['diff_from_baseline_days'], unit = 'd')
print(delta)
date = row['date_of_visit']
print(date)
start_date = date - delta
print(start_date)
row['format_start_date'] = start_date
print(row['format_start_date'])
。
drugs_merged.loc[21,'diff_from_baseline_days']
我对第21行(上面的42 days 00:00:00
2011-10-12 00:00:00
2011-08-31 00:00:00
2011-08-31 00:00:00
)的调试打印语句的结果是:
format_start_date
因此我们可以看到计算正确地进行了。
检查drugs_merged
是否已填充到原始format_start_date
中,我们可以看到> list(drugs_merged.loc[21:25,'format_start_date'])
['',
'',
datetime.datetime(2001, 1, 1, 0, 0),
datetime.datetime(2004, 1, 1, 0, 0),
'']
未被更改!
{{1}}
现在要重复我的问题,因为您已将其置于文本墙的底部...是什么使第二个与第一个不同,为什么这会改变循环的行为?
再次感谢您
答案 0 :(得分:2)
- 您应该切勿修改要迭代的内容。 不能保证在所有情况下都能正常工作。取决于 数据类型,迭代器返回一个副本而不是一个视图,并写入 不会有效果。
因此,您永远不应依靠修改row
来影响df
。它在第一种情况下有效,因为row
恰好是那里的df
的视图,但是在第二种情况下却无效,因为row
原来是副本。 Pandas API确实指定了df.iterrows
何时返回视图或副本,因此您永远不应依赖row
作为视图。
我们需要找到其他方式来编写代码。实际上,由于iterrows
是操纵Pandas DataFrame的最慢方法之一(因为它忽略了Pandas在争取更好性能方面的主要武器-逐列矢量化计算),因此我们应该更加积极地寻找一个不同的方式。
幸运的是,可以对循环进行矢量化处理
mask = ((drugs_merged['date_of_visit'] != "")
& (drugs_merged['diff_from_baseline_days'] != "")
& (drugs_merged['format_start_date'] == "") )
patients = drugs_merged['visit_id']
deltas = pd.to_timedelta(drugs_merged['diff_from_baseline_days'], unit='d')
dates = drugs_merged['date_of_visit']
start_dates = dates - deltas
drugs_merged.loc[mask, 'format_start_date'] = start_dates
请注意,您也可以屏蔽计算的每个步骤(而不是仅屏蔽最终分配):
mask = ((drugs_merged['date_of_visit'] != "")
& (drugs_merged['diff_from_baseline_days'] != "")
& (drugs_merged['format_start_date'] == "") )
patients = drugs_merged.loc[mask, 'visit_id']
deltas = pd.to_timedelta(drugs_merged.loc[mask, 'diff_from_baseline_days'], unit='d')
dates = drugs_merged.loc[mask, 'date_of_visit']
start_dates = dates - deltas
drugs_merged.loc[mask, 'format_start_date'] = start_dates
根据mask
中True / False值的比率,此速度可能更快,也可能不会更快。
每个df.loc[mask, ...]
都会生成df
的一部分的副本。复制可能是一项昂贵的操作。如果mask
由99%的True
组成,那么浪费大量时间来复制drugs_merged
的部分,这是避免在False
部分进行计算的很小的优势。另一方面,如果mask
由1%的True
组成,那么进行少量复制将有助于避免对许多False
部分进行不必要的计算。
因此使用未屏蔽版本(代码的第一块)还是完全屏蔽版本(第二块)是否有利取决于mask
的性质。
这是一个演示问题(以及各种行为)的玩具示例 您正在看到):
当DataFrame中的所有值都是字符串时,dtype是同质的。基础数据驻留在具有相同同型dtype的单个NumPy数组中,可以将其切成视图行。因此,row
是视图:
import pandas as pd
df1 = pd.DataFrame([('X','2018-7-26','fail'),
('Y','','fail')], columns=list('ABC'))
for idx, row in df1.iterrows():
row['C'] = 'success'
print(df1)
收益
A B C
0 X 2018-7-26 success
1 Y success
当我们使用pd.to_datetime
将日期字符串转换为时间戳时,一列的dtype从object
变为datetime64[ns]
。现在,基础数据至少驻留在两个块中-一个块的类型为dtype object
,另一个块的类型为dtype datetime64[ns]
。 (块只能具有单个dtype。根据您对DataFrame执行的操作,“未合并”的DataFrame可能会出现两个具有相同dtype的块。在这种奇怪的极端情况下,即使DataFrame具有同质dtype, row
s仍然是我的副本...)。现在要生成row
,需要将基础数据复制到dtype object
的新系列中。由于row
现在是副本,因此修改row
无法修改df2
:
df2 = pd.DataFrame([('X','2018-7-26','fail'),
('Y','','fail')], columns=list('ABC'))
df2['B'] = pd.to_datetime(df2['B'])
for idx, row in df2.iterrows():
row['C'] = 'success'
print(df2)
收益
A B C
0 X 2018-07-26 fail
1 Y NaT fail
但是,如果我们要保持df3
的同质dtype(例如所有字符串),那么row
是一个视图,因此在循环内修改row
会修改{{1} }:
df3
收益
df3 = pd.DataFrame([('X','2018-7-26','fail'),
('Y','','fail')], columns=list('ABC'))
for idx, row in df3.iterrows():
row['B'] = pd.Timestamp(row['B'])
row['C'] = 'success'
print(df3)
答案 1 :(得分:1)
所选答案最佳。请查看该答案中的玩具示例及其下面的注释,以了解以下示例为何起作用,但不应使用。
因此,为了在非运算循环中进行日期数学运算,我以前将$users = DB::table('users')
->join('roles', 'users.role', '=', 'roles.id')
->select('users.*', 'roles.name')
->get();
转换为users.name
对象,如下所示:
drugs_merged['date_of_visit']
在迭代过程中而不是在解决问题之前进行此操作:
datetime