在HDFStore的排序列中查找定期间隔的值转换

时间:2016-04-15 17:00:46

标签: python pandas hdf5 hdfstore

问题

我想创建一个工具来查找Pandas HDFStore的排序列中的值转换边界。我想尽快为广泛的数据发布做到这一点。

实施例

给出一个大的排序列

[1, 1, 3, 3, 3, 3, 3, 5, 6, 9, 10, 10, 10, 15]

我要选择几个有规律的位置

[1, 1, 3, *3*, 3, 3, 3, *5*, 6, 9, 10, *10*, 10, 15] 

从这些开始我想向右移动到下一个有值转换的点,即下一个值与当前值不同

[1, 1, 3, 3, 3, 3, *3*, *5*, 6, 9, 10, 10, *10*, 15] 

无论我得到的数据分布如何,我都想快速而有力地做到这一点。

一些问题

  • 从磁盘加载我的数据可能很大且成本很高。我不想将整个内容加载到内存中
  • Converselly我怀疑一次加载一个元素会非常慢,所以我可能想要拉出100行或者其他东西。这里有什么好的经验法则?
  • 我可能有很多专栏。考虑到我只关心一列,我怎么能最好地避免不必要的成本(我知道HDFStore是面向行的,但是,这里可能有一些聪明的东西)
  • 我可能遇到很长的排序序列(数十万个元素)

0 个答案:

没有答案