基于此处的pandas文档:Docs
以及示例:
>>> index = pd.date_range('1/1/2000', periods=9, freq='T')
>>> series = pd.Series(range(9), index=index)
>>> series
2000-01-01 00:00:00 0
2000-01-01 00:01:00 1
2000-01-01 00:02:00 2
2000-01-01 00:03:00 3
2000-01-01 00:04:00 4
2000-01-01 00:05:00 5
2000-01-01 00:06:00 6
2000-01-01 00:07:00 7
2000-01-01 00:08:00 8
Freq: T, dtype: int64
重新取样后:
>>> series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00 0
2000-01-01 00:03:00 6
2000-01-01 00:06:00 15
2000-01-01 00:09:00 15
在我的想法中,重新取样后,这些垃圾箱应该是这样的:
=========bin 01=========
2000-01-01 00:00:00 0
2000-01-01 00:01:00 1
2000-01-01 00:02:00 2
=========bin 02=========
2000-01-01 00:03:00 3
2000-01-01 00:04:00 4
2000-01-01 00:05:00 5
=========bin 03=========
2000-01-01 00:06:00 6
2000-01-01 00:07:00 7
2000-01-01 00:08:00 8
我在这一步上是对的吗?
所以在.sum
之后,我认为它应该是这样的:
2000-01-01 00:02:00 3
2000-01-01 00:05:00 12
2000-01-01 00:08:00 21
我只是不明白它是怎么出来的:
2000-01-01 00:00:00 0
(因为label='right'
,2000-01-01 00:00:00在这种情况下不能是任何分档的任何右边缘。)
2000-01-01 00:09:00 15
(原始系列中标签2000-01-01 00:09:00甚至不存在。
答案 0 :(得分:5)
简答:如果您使用closed='left'
和loffset='2T'
,那么您将得到您的预期:
series.resample('3T', label='left', closed='left', loffset='2T').sum()
2000-01-01 00:02:00 3
2000-01-01 00:05:00 12
2000-01-01 00:08:00 21
答案很长:(或者为什么你得到的结果是正确的,考虑到你使用的参数)这可能在文档中并不清楚,但在此设置中打开和关闭是关于严格与非 - 严格的不平等(例如<
vs <=
)。
一个例子应该清楚这一点。使用示例中的内部间隔,这与更改closed
:
closed='right' => ( 3:00, 6:00 ] or 3:00 < x <= 6:00
closed='left' => [ 3:00, 6:00 ) or 3:00 <= x < 6:00
你可以在很多地方找到间隔符号(圆括号与括号)的解释,例如: https://en.wikipedia.org/wiki/Interval_(mathematics)
label
参数仅控制是显示左侧(3:00)还是右侧(6:00),但不影响结果本身。
另请注意,您可以使用loffset
参数更改间隔的起点(应将其作为时间差值输入)。
回到示例,我们只将标签从“右”更改为“左”:
series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00 0
2000-01-01 00:03:00 6
2000-01-01 00:06:00 15
2000-01-01 00:09:00 15
series.resample('3T', label='left', closed='right').sum()
1999-12-31 23:57:00 0
2000-01-01 00:00:00 6
2000-01-01 00:03:00 15
2000-01-01 00:06:00 15
如您所见,结果相同,只有索引标签发生变化。 Pandas只允许您显示右侧或左侧标签,但如果它显示两者,那么它将如下所示(下面我使用的是标准索引表示法,左侧的(
表示打开,右侧的]
表示已关闭):
( 1999-12-31 23:57:00, 2000-01-01 00:00:00 ] 0 # = 0
( 2000-01-01 00:00:00, 2000-01-01 00:03:00 ] 6 # = 1+2+3
( 2000-01-01 00:03:00, 2000-01-01 00:06:00 ] 15 # = 4+5+6
( 2000-01-01 00:06:00, 2000-01-01 00:09:00 ] 15 # = 7+8
请注意,第一个bin(23:57:00,00:00:00)不为空,只是它包含一行,并且该行中的值为零。如果将'sum'更改为'计数'这变得更加明显:
series.resample('3T', label='left', closed='right').count()
1999-12-31 23:57:00 1
2000-01-01 00:00:00 3
2000-01-01 00:03:00 3
2000-01-01 00:06:00 2
答案 1 :(得分:5)
答案 2 :(得分:0)
重要的是,重新取样是通过首先生成一个时间序列(不是时间段,间隔,持续时间)的光栅来执行的,并且它是独立于“标签”而完成的。并且关闭了#39;参数。它只使用&#39; freq&#39;参数和&#39; loffset&#39;。在您的情况下,系统将生成以下栅格:
2000-01-01 00:00:00
2000-01-01 00:03:00
2000-01-01 00:06:00
2000-01-01 00:09:00
再次注意,此时间隔或期间没有解释。您可以使用&#39; loffset&#39;。
进行转换然后系统将使用关闭的&#39; ordre中的参数可在两个选项中进行选择:
(开始,结束)
[开始,结束]
此处的开始和结束是栅格中的两个相邻时间戳。标签&#39;参数用于选择开始或结束是否用作间隔的代表。
在您的示例中,如果您选择关闭=&#39;正确&#39;然后你会得到以下间隔:
( previous_interval , 2000-01-01 00:00:00] - {0}
(2000-01-01 00:00:00, 2000-01-01 00:03:00] - {1,2,3}
(2000-01-01 00:03:00, 2000-01-01 00:06:00] - {1,2,3}
(2000-01-01 00:06:00, 2000-01-01 00:09:00] - {4,5,6}
(2000-01-01 00:09:00, next_interval ] - {7,8}
请注意,在这些时间间隔内汇总值后,结果将显示为两个版本,具体取决于&#39;标签&#39;参数,即是否由其左或右时间戳表示同一个间隔。