我在python中有一个字典列表,其格式如下:
[{'item_value': 0.1, 'date': datetime.datetime(2017, ...), 'item_index': 1.0},
{'item_value': 0.22, 'date': datetime.datetime(2016, ...), 'item_index': 0.1},
{'item_value': 0.21, 'date': datetime.datetime(2016, ...), 'item_index': 1.0}
,...,
{'item_value': 1.03, 'date': datetime.datetime(2016, ...), 'item_index': 1.0}]
变量 item_index 取值:[0.0, 0.1, 0.2, ..., 1.0]
,而变量 item_value 值介于[-1,1]之间。我想使用日期构建一个numpy向量,其中包含所有可能的 item_index 和最近的 item_value (通过省略具有相同 item_value 的重复项保留最新的)。
我正在使用建议的解决方案:
np.array([d["item_value"] for d in sorted(my_list, key=lambda x: x["date"]))}
我创建了一个numpy向量,其中包含所有 item_values ,在示例的情况下对日期[1.03, 0.22, 0.21, 0.1]
进行了排序。但是,我想返回一个矢量,如下例所示:
[0, 0.22, 0, 0, 0, 0, 0, 0, 0, 0.1]
向量的每个位置表示item_index的11个可能值,并将item_value的最新值作为值。我怎么能这样做?
修改
一个例子可以是:
[{'item_value': 0.0, 'date': datetime.datetime(2017, 10, 11, 13, 39, 36, 979000), 'item_index': 1.0}
{'item_value': 0.0, 'date': datetime.datetime(2017, 10, 11, 13, 40, 2, 368000), 'item_index': 1.0}
{'item_value': -1.0, 'date': datetime.datetime(2017, 10, 23, 9, 35, 20, 741000), 'item_index': 1.0}
{'item_value': -1.0, 'date': datetime.datetime(2017, 10, 23, 9, 35, 41, 915000), 'item_index': 0.8}
{'item_value': 0.0, 'date': datetime.datetime(2017, 10, 23, 9, 36, 2, 763000), 'item_index': 0.5}
{'item_value': 0.0, 'date': datetime.datetime(2017, 10, 23, 11, 40, 22, 427000), 'item_index': 1.0}
{'item_value': 0.0, 'date': datetime.datetime(2017, 11, 14, 7, 33, 9, 131000), 'item_index': 1.0}
{'item_value': 0.51, 'date': datetime.datetime(2017, 11, 15, 12, 50, 25, 14000), 'item_index': 1.0}
{'item_value': 0.0, 'date': datetime.datetime(2018, 1, 19, 14, 15, 46, 761000), 'item_index': 1.0}
{'item_value': -0.49, 'date': datetime.datetime(2018, 1, 19, 14, 16, 30, 207000), 'item_index': 1.0}
{'item_value': -0.009000000000000005, 'timestamp': datetime.datetime(2018, 1, 19, 16, 32, 30, 631000), 'item_index': 1.0}
{'item_value': 0.0, 'date': datetime.datetime(2018, 1, 19, 16, 33, 19, 509000), 'item_index': 1.0}
{'item_value': 0.0, 'date': datetime.datetime(2018, 1, 19, 16, 44, 59, 483000), 'item_index': 1.0}
{'item_value': -0.33299999999999996, 'date': datetime.datetime(2018, 1, 19, 18, 13, 17, 67000), 'item_index': 1.0}
{'item_value': 1.0, 'date': datetime.datetime(2018, 1, 19, 18, 13, 48, 443000), 'item_index': 1.0}
{'item_value': -0.33299999999999996, 'date': datetime.datetime(2018, 1, 19, 18, 14, 22, 871000), 'item_index': 1.0}
{'item_value': 0.0, 'date': datetime.datetime(2018, 1, 28, 11, 45, 48, 223000), 'item_index': 1.0}
{'item_value': 0.005000000000000003, 'timestamp': datetime.datetime(2018, 1, 28, 11, 46, 7, 481000), 'item_index': 1.0}
{'item_value': 0.0, 'date': datetime.datetime(2018, 1, 28, 11, 46, 27, 845000), 'item_index': 1.0}
{'item_value': 0.0, 'date': datetime.datetime(2018, 1, 28, 11, 46, 50, 386000), 'item_index': 1.0}]
答案 0 :(得分:3)
oneliner可以如下:
indexes = [0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0]
my_filtered_lists = [sorted([d for d in my_list if d['item_index'] == i],
key=lambda x: x["date"])
for i in indexes ]
result = [l[-1]['item_value'] if len(l)>0 else 0 for l in my_filtered_lists]
对于每个索引,您过滤列表,并根据需要对每个筛选列表进行排序,并获取最后一个元素的item_value
。
如果数据集足够大,这可能需要一点内存,因为您要为每个item_idex
创建一个额外的列表。
经过测试:
my_list = [
{'item_value': 0.1, 'date': datetime.datetime(2017, 05, 01), 'item_index': 1.0},
{'item_value': 0.22, 'date': datetime.datetime(2016,05,01), 'item_index': 0.1},
{'item_value': 0.21, 'date': datetime.datetime(2017, 05, 01), 'item_index': 0.1},
{'item_value': 1.03, 'date': datetime.datetime(2016,05,01), 'item_index': 1.0}]
它返回:[0, 0.21, 0, 0, 0, 0, 0, 0, 0, 0, 0.1]
我理解的是预期输出。
答案 1 :(得分:2)
一种解决方案是创建一个仅保留最新值的中间dict
key -> value
:
d = dict()
for value in sorted(my_list, key=lambda x: x["date"]):
d[value['item_index']] = d[value['item_value']]
另一种解决方案是将列表转换为pandas DataFrame
,按日期排序,按item_index
分组并使用last()
函数,以保留数据帧的最新记录。< / p>