截止小时熊猫系列仅限整天

时间:2015-12-09 22:44:12

标签: python pandas

我正在使用Pandas 0.17.1,我经常会遇到包含部分天数的每小时系列数据。似乎没有任何内置于pandas中的功能允许您丢弃与Series数据边界上较粗的日期偏移的不完整段相对应的值(我只想丢弃开头存在的部分数据, /或系列的结尾)。

鉴于上述情况,我的直觉是,我必须编写一些代码来抽象标准(例如,使用计数聚合的groupby,以及<24小时的时间丢弃小时数):

<html lang="en">
<head>
    <meta charset="UTF-8">
    <title></title>

    <link rel="icon" href="images/favicon.ico"/>
    <link rel="stylesheet" href="bower_components/angular-material/material.min.css"/>
    <link rel="stylesheet" href="https://fonts.googleapis.com/icon?family=Material+Icons">
</head>
<body>
<md-container>
     <md-input-container>
        <label>Email</label>
        <input type="email">
    </md-input-container>

    <!-- Default Slider -->
    <input class="mdl-slider mdl-js-slider" type="range"
           min="0" max="100" value="0" tabindex="0">
    <!-- Slider with Starting Value -->
    <input class="mdl-slider mdl-js-slider" type="range"
           min="0" max="100" value="25" tabindex="0">
</md-container>

<script src="bower_components/requirejs/require.js"
        data-main="js/main"></script>

</body>

所需行为的一个例子:

>> hist_data.groupby(lambda x: x.date()).agg('count')
2007-01-01    23
2007-01-02    24
...

但是,如果我的时区不是UTC(时区感知),那么上面提出的方法似乎充满了危险,因为DST过渡日的小时数将是23或25。

是否有人知道处理此问题的聪明或内置方式?

1 个答案:

答案 0 :(得分:4)

您可以使用groupby执行此操作,并对未完成的组进行过滤。为了检查完整性,我首先重新编制数据索引,然后检查是否有NaN值:

In [10]: hourly_data = pd.Series(np.random.randn(72), index=pd.date_range('2016-01-01 04:00', periods=72, freq='H'))

In [11]: new_idx = pd.date_range(hourly_data.index[0].date(), hourly_data.index[-1].date() + pd.Timedelta('1 day'), freq='H')

In [12]: hourly_data.reindex(new_idx)
Out[12]:
2016-01-01 00:00:00         NaN
2016-01-01 01:00:00         NaN
2016-01-01 02:00:00         NaN
2016-01-01 03:00:00         NaN
2016-01-01 04:00:00   -0.941332
2016-01-01 05:00:00    1.802739
2016-01-01 06:00:00    0.798968
2016-01-01 07:00:00   -0.444979
                         ...
2016-01-04 17:00:00         NaN
2016-01-04 18:00:00         NaN
2016-01-04 19:00:00         NaN
2016-01-04 20:00:00         NaN
2016-01-04 21:00:00         NaN
2016-01-04 22:00:00         NaN
2016-01-04 23:00:00         NaN
2016-01-05 00:00:00         NaN
Freq: H, dtype: float64

这导致时间序列包括时间序列中存在的所有小时日期。这样,我们可以通过检查该日期是否有NaN值来检查日期是否完整(此方法应该适用于DST转换),并使用此标准进行过滤:

In [13]: hourly_data.reindex(new_idx).groupby(lambda x: x.date()).filter(lambda x: x.isnull().sum() == 0)
Out[13]:
2016-01-02 00:00:00   -1.231445
2016-01-02 01:00:00    2.371690
2016-01-02 02:00:00   -0.695448
2016-01-02 03:00:00    0.745308
2016-01-02 04:00:00    0.814579
2016-01-02 05:00:00    1.345674
2016-01-02 06:00:00   -1.491470
2016-01-02 07:00:00    0.407182
                         ...
2016-01-03 16:00:00   -0.742151
2016-01-03 17:00:00    0.677229
2016-01-03 18:00:00    0.832271
2016-01-03 19:00:00   -0.183729
2016-01-03 20:00:00    1.938594
2016-01-03 21:00:00   -0.816370
2016-01-03 22:00:00    1.745757
2016-01-03 23:00:00    0.223487
Freq: H, dtype: float64

原始回答 您可以通过提供自定义函数使用resample执行此操作,然后在该函数中,您可以指定不应跳过NaN值。

简短回答:

hist_data.resample('D', how=lambda x: x.mean(skipna=False))

如果缺少的小时数已经作为NaN存在。否则,您可以先将其重新取样为常规的每小时系列:

hist_data.resample('H').resample('D', how=lambda x: x.mean(skipna=False))

以一个例子来回答。使用一些虚拟数据(我在其中一天插入NaN):

In [77]: hist_data = pd.Series(np.random.randn(72), index=pd.date_range('2016-01-01', periods=72, freq='H'))

In [78]: hist_data
Out[78]:
2016-01-01 00:00:00   -0.717624
2016-01-01 01:00:00    0.029151
2016-01-01 02:00:00    0.535843
                         ...
2016-01-03 21:00:00    0.659923
2016-01-03 22:00:00   -1.085640
2016-01-03 23:00:00    0.571347
Freq: H, dtype: float64

In [80]: hist_data.iloc[30] = np.nan

使用count,您可以看到第二天确实存在一个缺失值:

In [81]: hist_data.resample('D', how='count')
Out[81]:
2016-01-01    24
2016-01-02    23
2016-01-03    24
Freq: D, dtype: int64

默认情况下,'mean'会忽略此NaN值:

In [83]: hist_data.resample('D', how='mean')
Out[83]:
2016-01-01    0.106537
2016-01-02   -0.112774
2016-01-03   -0.292248
Freq: D, dtype: float64

但您可以使用skipna关键字参数更改此行为:

In [82]: hist_data.resample('D', how=lambda x: x.mean(skipna=False))
Out[82]:
2016-01-01    0.106537
2016-01-02         NaN
2016-01-03   -0.292248
Freq: D, dtype: float64