熊猫按持续时间拖放行

时间:2020-03-19 11:25:13

标签: python pandas dataframe datetime

我想按时间条件(忽略日期)删除数据帧行。我的数据包含大约1亿行。我大约有100列,每列都有不同的采样频率。 Idea of dropping rows

我准备了以下代码段,其中考虑了不同的采样频率:

import pandas as pd

# leave_duration=0.01 seconds
# drop_duration=0.1 seconds

i = pd.date_range('2018-01-01', periods=1000, freq='2ms')
i=i.append(pd.date_range('2018-01-01', periods=1000, freq='3ms'))
i=i.append(pd.date_range('2018-01-01', periods=1000, freq='0.5ms'))
df = pd.DataFrame({'A': range(len(i))}, index=i)
df=df.sort_index()
print(df)
# drop by duration....

在此简单示例中,数据持续约1秒钟,并具有3个不同的采样频率。目标是删除持续时间(例如0.1秒)的行,并保留持续时间(例如0.01秒)的行。我如何用单缸纸做?

1 个答案:

答案 0 :(得分:0)

通过df=df.loc['2018-01-01 00:00:00.000000 ':'2018-01-01 00:00:00.000500 '],您将在2018-01-01 00:00:00.0000002018-01-01 00:00:00.000500之间拥有新的df女巫数据 现在您可以对期望的日期应用过滤器

import pandas as pd

# leave_duration=0.01 seconds
# drop_duration=0.1 seconds

i = pd.date_range('2018-01-01', periods=1000, freq='2ms')
i=i.append(pd.date_range('2018-01-01', periods=1000, freq='3ms'))
i=i.append(pd.date_range('2018-01-01', periods=1000, freq='0.5ms'))
df = pd.DataFrame({'A': range(len(i))}, index=i)
df=df.sort_index()
print(df)

#filter data between 2018-01-01 00:00:00.000000 ':'2018-01-01 00:00:00.000500
df=df.loc['2018-01-01 00:00:00.000000 ':'2018-01-01 00:00:00.000500 ']
print(df)

输出: 在应用数据过滤器之前

                               A
2018-01-01 00:00:00.000000     0
2018-01-01 00:00:00.000000  2000
2018-01-01 00:00:00.000000  1000
2018-01-01 00:00:00.000500  2001
2018-01-01 00:00:00.001000  2002
...                          ...
2018-01-01 00:00:02.985000  1995
2018-01-01 00:00:02.988000  1996
2018-01-01 00:00:02.991000  1997
2018-01-01 00:00:02.994000  1998
2018-01-01 00:00:02.997000  1999

[3000 rows x 1 columns]

应用日期过滤器后:


                               A
2018-01-01 00:00:00.000000     0
2018-01-01 00:00:00.000000  2000
2018-01-01 00:00:00.000000  1000
2018-01-01 00:00:00.000500  2001