我有一个大的时间序列dataframe
(熊猫),索引为datetime
。
我正在尝试根据每天一列的平均值来过滤dataframe
。
但是,当我这样做时,出现以下错误:
ValueError:只能比较标记相同的Series对象
这是我到目前为止的代码:
def filter(Data,Variation):
Mean = Data['column1'].resample('d').mean().dropna()
Min = Mean * (1 - Variation)
Max = Mean * (1 + Variation)
Data = Data[Data['column1'] > Min]
Data = Data[Data['column1'] < Max]
return Data
我想我知道出了什么问题('Min
和'Data
'的大小不同;即它们的索引不匹配),但是我不知道如何解决。
有人有什么想法吗?
谢谢。
答案 0 :(得分:0)
对DataFrame重新采样后,将结果(您的“ Mean
”)与原始数据进行对齐会比较困难(但并非没有可能)。
相反,请考虑使用groupby
,如下所示:
# example DataFrame
df = pd.DataFrame(
index=pd.date_range('2020-08-01', freq='3H', periods=20, name='date'),
data=dict(
x=np.random.normal(size=20),
y=np.random.normal(size=20),
))
def f(g, var):
mean = g.mean()
return (mean * (1 - var) < g) & (g < mean * (1 + var))
selx = df.groupby(pd.Grouper(freq='d')).x.apply(f, var=3.0)
df.loc[selx]
注意:selx
只是一个bool
时间序列;您可以使用它根据上面的最后一行选择整行。