我正在处理具有sys_id和datetime作为其两个字段的对象列表。如果每个对象之间的时间间隔小于5分钟,我想根据sys_id和datetime对这些对象进行分组。
例如,如果我的数据是
test_id sys_id时间
1 11 1/1/2018 6:03
2 11 1/1/2018 6:07
3 11 1/1/2018 6:11
4 11 1/1/2018 6:14
5 12 1/2/2018 15:25
6 12 1/3/2018 15:30
7 12 1/4/2018 15:33
8 12 1/5/2018 15:37
我想将test_ids 01、02、03、04分组为一个列表,因为它们具有相同的sys_id,并且每个测试之间的时间间隔小于5分钟,而test_ids 05、06、07、08作为另一组。
答案 0 :(得分:1)
首先按时间排序您的记录。如果到最后一个条目的时间差不超过5分钟,则遍历记录并将它们附加到输出列表的最后一个子列表中;否则,将记录放入输出列表的新子列表中。
from datetime import datetime, timedelta
data = [
{'sys_id': 11, 'time': '1/1/18 6:00'},
{'sys_id': 11, 'time': '1/1/18 6:03'},
{'sys_id': 11, 'time': '1/1/18 6:07'},
{'sys_id': 11, 'time': '1/1/18 6:11'},
{'sys_id': 12, 'time': '1/1/18 15:25'},
{'sys_id': 12, 'time': '1/1/18 15:30'},
{'sys_id': 12, 'time': '1/1/18 15:33'},
{'sys_id': 12, 'time': '1/1/18 6:37'},
]
def to_time(string):
return datetime.strptime(string, '%m/%d/%y %H:%M')
data.sort(key=lambda record: to_time(record['time']))
output = []
for record in data:
if output and to_time(record['time']) - to_time(output[-1][-1]['time']) <= timedelta(minutes=5):
output[-1].append(record)
else:
output.append([record])
print(output)
输出(格式化后):
[
[{'sys_id': 11, 'time': '1/1/18 6:00'}, {'sys_id': 11, 'time': '1/1/18 6:03'}, {'sys_id': 11, 'time': '1/1/18 6:07'}, {'sys_id': 11, 'time': '1/1/18 6:11'}],
[{'sys_id': 12, 'time': '1/1/18 6:37'}],
[{'sys_id': 12, 'time': '1/1/18 15:25'}, {'sys_id': 12, 'time': '1/1/18 15:30'}, {'sys_id': 12, 'time': '1/1/18 15:33'}]
]