Question

我有一个大的时间序列dataframe（熊猫），索引为datetime。我正在尝试根据每天一列的平均值来过滤dataframe。但是，当我这样做时，出现以下错误：

ValueError：只能比较标记相同的Series对象

这是我到目前为止的代码：

def filter(Data,Variation):

   Mean = Data['column1'].resample('d').mean().dropna()

   Min = Mean * (1 - Variation)
   Max = Mean * (1 + Variation)

   Data = Data[Data['column1'] > Min]
   Data = Data[Data['column1'] < Max]

   return Data

我想我知道出了什么问题（'Min和'Data'的大小不同；即它们的索引不匹配），但是我不知道如何解决。

有人有什么想法吗？

谢谢。

Answer 1

对DataFrame重新采样后，将结果（您的“ Mean”）与原始数据进行对齐会比较困难（但并非没有可能）。

相反，请考虑使用groupby，如下所示：

# example DataFrame
df = pd.DataFrame(
    index=pd.date_range('2020-08-01', freq='3H', periods=20, name='date'),
    data=dict(
        x=np.random.normal(size=20),
        y=np.random.normal(size=20),
    ))

def f(g, var):
    mean = g.mean()
    return (mean * (1 - var) < g) & (g < mean * (1 + var))

selx = df.groupby(pd.Grouper(freq='d')).x.apply(f, var=3.0)

df.loc[selx]

注意：selx只是一个bool时间序列；您可以使用它根据上面的最后一行选择整行。

每天过滤时间序列数据帧

1 个答案: