Question

给定一个带有整数索引和float列的简单DataFrame，此代码为：

store = pd.HDFStore('test.hdf5')
print store.select('df', where='index >= 50000')['A'].mean()

比此代码慢至少10倍：

store = pd.HDFStore('test.hdf5')
print store.get('df')['A'][50000:].mean()

表格或固定格式没有太大的区别，select（）调用，即使相当于切片，也要慢得多。

感谢您的任何见解！

Answer 1

如果格式为“已修复”，则无法进行选择。这会引发异常（实际上的访问时间会快得多）。也就是说，您可以直接索引固定格式。

In [39]: df = DataFrame(np.random.randn(1000000,10))

In [40]: df.to_hdf('test.h5','df',mode='w',format='table')

In [41]: def f():
    df = pd.read_hdf('test.h5','df')
    return df.loc[50001:,0]
   ....: 

In [42]: def g():
    df = pd.read_hdf('test.h5','df')
    return df.loc[df.index>50000,0]
   ....: 

In [43]: def h():
    return pd.read_hdf('test.h5','df',where='index>50000')[0]
   ....: 

In [44]: f().equals(g())
Out[44]: True

In [46]: f().equals(h())
Out[46]: True

In [47]: %timeit f()
10 loops, best of 3: 159 ms per loop

In [48]: %timeit g()
10 loops, best of 3: 127 ms per loop

In [49]: %timeit h()
1 loops, best of 3: 499 ms per loop

确定它慢了。但是你正在做更多的工作。这是比较布尔索引器与整个数组。如果您在整个框架中阅读，那么它具有很多优点（例如缓存，位置）。

当然，如果您只是选择一个连续的切片，那么只需执行

In [59]: def i():
    return pd.read_hdf('test.h5','df',start=50001)[0]
   ....: 

In [60]: i().equals(h())
Out[60]: True

In [61]: %timeit i()
10 loops, best of 3: 86.6 ms per loop

HDFStore.select比DataFrame切片慢一个数量级？

1 个答案: