所以我已经坚持了一段时间了。 我的数据如下所示:
Initialer Start uge Start dag Start tid End uge End dag End tid
0 MBAU 18 3 09:00:00 18 5 12:00:00
1 MBAU 22 2 14:00:00 22 2 15:00:00
2 MBAU 13 4 09:00:00 13 4 10:00:00
3 AMPE 14 1 12:00:00 14 1 13:30:00
4 AMPE 26 6 09:00:00 27 2 22:00:00
我正在尝试生成一个以“Initialer”为键的字典,值应由两个元组或列表组成,一个包含“开始”列,一个包含“结束”列。
像这样 { 'Initialer': [(Start uge, Start dag, Start tid), (End uge, End dag, End tid)] }
:
{'MBAU': [[(18, 3, 09:00:00), (18, 5, 12:00:00)],
[(22, 2, 14:00:00), (22, 2, 15:00:00)],
[(13, 4, 09:00:00), (13, 4, 10:00:00)]],
'AMPE': [[(14, 1, 12:00:00), (14, 1, 13;30:00)],
[(26, 6, 09:00:00), (27, 2, 22:00:00)]] }
但是,我正在努力做对。我尝试生成两个分别包含开始列和结束列的元组列表:
start_tuple = self.u_data[['Initialer','Start uge', 'Start dag', 'Start tid']].apply(tuple, axis=1).values
>>>
[('MBAU', 18, 3, datetime.time(9, 0))
('MBAU', 22, 2, datetime.time(14, 0))
('MBAU', 13, 4, datetime.time(9, 0))
('AMPE', 14, 1, datetime.time(12, 0))
('AMPE', 26, 6, datetime.time(9, 0))]
end_tuple = self.u_data[['Initialer','End uge', 'End dag', 'End tid']].apply(tuple, axis=1).values
>>>
[('MBAU', 18, 5, datetime.time(12, 0))
('MBAU', 22, 2, datetime.time(15, 0))
('MBAU', 13, 4, datetime.time(10, 0))
('AMPE', 14, 1, datetime.time(13, 30))
('AMPE', 27, 2, datetime.time(22, 0))]
然后我根据“Initialer”中的唯一值创建了一个字典,并尝试使用列表理解来填充它:
start_dict = {k:[] for k in self.u_data.Initialer.unique()}
(start_dict[initialer].append((x,y,z)) for initialer, x, y, z in start_tuple)
>>>
{'MBAU': [], 'AMPE': []}
但这仅返回空值 {'MBAU': [], 'AMPE': []}
。我试图研究如何做到这一点,但没有任何运气。
有没有聪明的方法来实现这一点?
答案 0 :(得分:2)
您得到 {'MBAU': [], 'AMPE': []}
的原因是因为 list.append()
是一个就地操作并且不返回任何内容,并且 (i for i in l)
创建一个生成器对象而不是实际运行追加操作。
你可以看到这里发生了什么 -
start_tuple = df[['Initialer','Start_uge', 'Start_dag', 'Start_tid']].apply(tuple, axis=1)
start_dict = {k:[] for k in df.Initialer.unique()}
#list comprehension runs the append operation but returns None
[start_dict[initialer].append((x,y,z)) for initialer, x, y, z in start_tuple]
### Returns:
### [None, None, None, None, None]
### But if you print start_dict
print(start_dict)
{'MBAU': [(18, 3, '09:00:00'), (22, 2, '14:00:00'), (13, 4, '09:00:00')], 'AMPE': [(14, 1, '12:00:00'), (26, 6, '09:00:00')]}
这意味着该操作将运行并返回 None,但原始 start_dict
对象将被修改,因为现在您实际上是在迭代而不是在创建生成器。
与您已经使用的方法更加内联,但使用 collections.defaultdict
。 -
from collections import defaultdict
init = df['Initialer'].tolist()
start_tuple = df[['Start_uge', 'Start_dag', 'Start_tid']].apply(tuple, axis=1)
end_tuple = df[['End_uge', 'End_dag', 'End_tid']].apply(tuple, axis=1)
items = zip(init, start_tuple, end_tuple)
d = defaultdict(list)
for i,j,k in items:
d[i].append([j,k])
output = dict(d)
output
{'MBAU': [[(18, 3, '09:00:00'), (18, 5, '12:00:00')],
[(22, 2, '14:00:00'), (22, 2, '15:00:00')],
[(13, 4, '09:00:00'), (13, 4, '10:00:00')]],
'AMPE': [[(14, 1, '12:00:00'), (14, 1, '13:30:00')],
[(26, 6, '09:00:00'), (27, 2, '22:00:00')]]}
您可以使用 collections.defaultdict
as -
from collections import defaultdict
d = defaultdict(list)
for _,row in df.iterrows():
vals = row.tolist()
d[vals[0]].append([tuple(vals[1:4]),tuple(vals[4:])])
output = dict(d)
output
{'MBAU': [[(18, 3, '09:00:00'), (18, 5, '12:00:00')],
[(22, 2, '14:00:00'), (22, 2, '15:00:00')],
[(13, 4, '09:00:00'), (13, 4, '10:00:00')]],
'AMPE': [[(14, 1, '12:00:00'), (14, 1, '13:30:00')],
[(26, 6, '09:00:00'), (27, 2, '22:00:00')]]}