Pandas过滤 - 非索引列的between_time

时间:2015-01-21 10:48:59

标签: python pandas

我需要按特定小时过滤掉数据。 DataFrame函数between_time似乎是正确的方法,但它只适用于数据帧的索引列;但是我需要以原始格式存储数据(例如,数据透视表将期望datetime列具有正确的名称,而不是索引)。

这意味着每个过滤器看起来像这样:

df.set_index(keys='my_datetime_field').between_time('8:00','21:00').reset_index()

这意味着每次运行此类过滤器时都会有两次重建索引操作。

这是一个好习惯还是有更合适的方法来做同样的事情?

1 个答案:

答案 0 :(得分:10)

创建DatetimeIndex,但将其存储在变量中,而不是DataFrame中。 然后调用它的indexer_between_time方法。这将返回一个整数数组,然后可以使用dfiloc中选择行:

import pandas as pd
import numpy as np

N = 100
df = pd.DataFrame(
    {'date': pd.date_range('2000-1-1', periods=N, freq='H'),
     'value': np.random.random(N)})

index = pd.DatetimeIndex(df['date'])
df.iloc[index.indexer_between_time('8:00','21:00')]