Question

假设我有以下数据：

import pandas as pd

csv = [
    ['2019-05-01 00:00', ],
    ['2019-05-01 01:00', 2],
    ['2019-05-01 02:00', 4],
    ['2019-05-01 03:00', ],
    ['2019-05-01 04:00', 2],
    ['2019-05-01 05:00', 4],
    ['2019-05-01 06:00', 6],
    ['2019-05-01 07:00', ],
    ['2019-05-01 08:00', ],
    ['2019-05-01 09:00', 2]]

df = pd.DataFrame(csv, columns=["DateTime", "Value"])

所以我正在处理一个有数据缺口的时间序列：

           DateTime  Value
0  2019-05-01 00:00    NaN
1  2019-05-01 01:00    2.0
2  2019-05-01 02:00    4.0
3  2019-05-01 03:00    NaN
4  2019-05-01 04:00    2.0
5  2019-05-01 05:00    4.0
6  2019-05-01 06:00    6.0
7  2019-05-01 07:00    NaN
8  2019-05-01 08:00    NaN
9  2019-05-01 09:00    2.0

现在，我要对每个现有数据块进行逐一处理。我的意思是，我想将系列分成NaN之间的紧凑片段。目的是迭代这些块，以便我可以将每个块分别传递给另一个无法处理数据间隙的函数。然后，我想将结果存储在原始数据帧中的相应位置。举一个简单的例子，假设该函数计算了块的平均值。预期结果：

           DateTime  Value  ChunkAverage
0  2019-05-01 00:00    NaN           NaN
1  2019-05-01 01:00    2.0           3.0
2  2019-05-01 02:00    4.0           3.0
3  2019-05-01 03:00    NaN           NaN
4  2019-05-01 04:00    2.0           4.0
5  2019-05-01 05:00    4.0           4.0
6  2019-05-01 06:00    6.0           4.0
7  2019-05-01 07:00    NaN           NaN
8  2019-05-01 08:00    NaN           NaN
9  2019-05-01 09:00    2.0           2.0

我知道这可以通过迭代循环，“ if”子句，索引切片等“传统方式”完成。但是我想Pandas内置了一些更有效，更安全的工具。但是我不知道怎么办。

Answer 1

您可以将df.groupby与pd.Series.isna和pd.Series.cumsum配合使用

g = df.Value.isna().cumsum()
df.assign(chunk = df.Value.groupby(g).transform('mean').mask(df.Value.isna()))
# df['chunk'] = df.Value.groupby(g).transform('mean').mask(df.Value.isna()))
# df['chunk'] = df.Value.groupby(g).transform('mean').where(df.Value.notna())

           DateTime  Value  chunk
0  2019-05-01 00:00    NaN    NaN
1  2019-05-01 01:00    2.0    3.0
2  2019-05-01 02:00    4.0    3.0
3  2019-05-01 03:00    NaN    NaN
4  2019-05-01 04:00    2.0    4.0
5  2019-05-01 05:00    4.0    4.0
6  2019-05-01 06:00    6.0    4.0
7  2019-05-01 07:00    NaN    NaN
8  2019-05-01 08:00    NaN    NaN
9  2019-05-01 09:00    2.0    2.0

注意：

df.assign(...)给出了新的数据框。
df['chunk'] = ...就地改变原始数据框

Answer 2

一种可能性是根据Value中的NaN添加一个分隔符列，并按以下内容分组：

df['separator']=df['Value'].isna().cumsum().fillna("")
df['Value'] = df['Value'].fillna("")
grp = df.groupby('separator').agg(avg = pd.NamedAgg(column='Value', aggfunc='sum'))

print(grp)

这将计算每个组中的值：

           avg
separator     
1            2
2            3
3            0
4            1

如何填充NaN取决于您想通过计算实现什么。

如何将Pandas数据帧从NaN拆分为NaN？

2 个答案: