我已将大(6GB)数据帧转换为hdf5文件。它包含10年来100k用户ID的大约30万笔交易。我希望在48个不同的时间点重新创建每个用户ID的状态。例如,"对于每个用户ID,他们在2012年1月1日之前已经完成了多少交易'"。这是一个摘要字段。
我目前的方法是使用hdf5的pandas查询功能查询每个user_id的hdf5,然后循环显示每个日期并在特定时间点输出摘要。这个问题是每个用户ID需要太长时间 - 有时每个用户10到20秒。看来hdf5查询占用的时间最多。
有没有办法可以在hdf5文件上创建一个索引来加速查询,或者用user_id帮助对它进行排序?所有的数据操作都在熊猫中,但由于环境的限制,我无法在多台机器上分配工作。