如何确保大型HDF5中的唯一行

时间:2014-01-20 23:10:52

标签: python pandas pytables

我正在努力在HDF5表中实现一组相对较大(5,000,000且不断增长)的时间序列数据。我需要一种方法来每天删除重复数据,每天一次“运行”。由于我的数据检索过程目前存在,因此在数据检索过程中写入重复项要比确保没有重复项更容易。

从pytable中删除重复的最佳方法是什么?我的所有阅读都指向我将整个表导入到pandas中,并获得一个唯一值的数据框,并通过在每次运行数据时重新创建表来将其写回磁盘。这似乎与pytables相反,并且我不知道整个数据集将有效地适应内存。我应该补充说,它是两列定义唯一记录。

没有可重复的代码,但任何人都可以给我pytables数据管理建议吗?

提前非常感谢...

1 个答案:

答案 0 :(得分:4)

请参阅此相关问题:finding a duplicate in a hdf5 pytable with 500e6 rows

为什么你说这是'与pytables相反'?完全可以存储重复项。用户对此负责。

你也可以尝试这个:merging two tables with millions of rows in python,你可以使用简单drop_duplicates()的合并功能。