Question

我对如何更改此设置感到好奇：


df_pirates_all = pd.read_csv(
    "https://cdn.touringplans.com/datasets/pirates_of_caribbean_dlr.csv",usecols=['date','datetime','SPOSTMIN'],
    parse_dates=['date', 'datetime'], 
)
df_pirates_all['ride'] = 'pirates'
df_pirates_all['open'] = ~((df_pirates_all['SPOSTMIN'] == -999))

df_pirates = df_pirates_all.set_index('datetime').sort_index()
df_pirates = df_pirates.loc['2017-01-01 06:00':'2017-02-01 00:00']
df_pirates = df_pirates.where(df_pirates.fillna(axis=1, method='ffill').isnull(), df_pirates.fillna(0))
df_pirates = df_pirates.resample('15Min').ffill()

因此，一旦公园关闭一夜，它就不会每隔15分钟发布数据，因为当前结果显示了整夜中该时段的最后一次等待时间，因为该代码是我最近的尝试。

Answer 1

我通过查看https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.resample.Resampler.fillna.html解决了这一问题，并将最后一行从更改为

df_pirates = df_pirates.resample('15Min').ffill()

到

df_pirates = df_pirates.resample('15Min').fillna("nearest",limit=1)

并且消除了所有错误的通宵等待时间。

每15分钟使用一次熊猫填充

1 个答案: