Question

基于此处的pandas文档：Docs

以及示例：

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')
>>> series = pd.Series(range(9), index=index)
>>> series
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8
Freq: T, dtype: int64

重新取样后：

>>> series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15

在我的想法中，重新取样后，这些垃圾箱应该是这样的：

=========bin 01=========
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2

=========bin 02=========
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5

=========bin 03=========
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8

我在这一步上是对的吗？

所以在.sum之后，我认为它应该是这样的：

2000-01-01 00:02:00     3
2000-01-01 00:05:00    12
2000-01-01 00:08:00    21

我只是不明白它是怎么出来的：

2000-01-01 00:00:00 0

（因为label='right'，2000-01-01 00:00:00在这种情况下不能是任何分档的任何右边缘。）

2000-01-01 00:09:00 15

（原始系列中标签2000-01-01 00:09:00甚至不存在。

Answer 1

简答：如果您使用closed='left'和loffset='2T'，那么您将得到您的预期：

series.resample('3T', label='left', closed='left', loffset='2T').sum()

2000-01-01 00:02:00     3
2000-01-01 00:05:00    12
2000-01-01 00:08:00    21

答案很长：（或者为什么你得到的结果是正确的，考虑到你使用的参数）这可能在文档中并不清楚，但在此设置中打开和关闭是关于严格与非 - 严格的不平等（例如< vs <=）。

一个例子应该清楚这一点。使用示例中的内部间隔，这与更改closed：

的值不同

closed='right' =>  ( 3:00, 6:00 ]  or  3:00 <  x <= 6:00
closed='left'  =>  [ 3:00, 6:00 )  or  3:00 <= x <  6:00

你可以在很多地方找到间隔符号（圆括号与括号）的解释，例如： https://en.wikipedia.org/wiki/Interval_(mathematics)

label参数仅控制是显示左侧（3:00）还是右侧（6:00），但不影响结果本身。

另请注意，您可以使用loffset参数更改间隔的起点（应将其作为时间差值输入）。

回到示例，我们只将标签从“右”更改为“左”：

series.resample('3T', label='right', closed='right').sum()

2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15

series.resample('3T', label='left', closed='right').sum()

1999-12-31 23:57:00     0
2000-01-01 00:00:00     6
2000-01-01 00:03:00    15
2000-01-01 00:06:00    15

如您所见，结果相同，只有索引标签发生变化。 Pandas只允许您显示右侧或左侧标签，但如果它显示两者，那么它将如下所示（下面我使用的是标准索引表示法，左侧的(表示打开，右侧的]表示已关闭）：

( 1999-12-31 23:57:00, 2000-01-01 00:00:00 ]   0   # = 0
( 2000-01-01 00:00:00, 2000-01-01 00:03:00 ]   6   # = 1+2+3
( 2000-01-01 00:03:00, 2000-01-01 00:06:00 ]  15   # = 4+5+6
( 2000-01-01 00:06:00, 2000-01-01 00:09:00 ]  15   # =   7+8

请注意，第一个bin（23：57：00,00：00：00）不为空，只是它包含一行，并且该行中的值为零。如果将'sum'更改为'计数'这变得更加明显：

series.resample('3T', label='left', closed='right').count()

1999-12-31 23:57:00    1
2000-01-01 00:00:00    3
2000-01-01 00:03:00    3
2000-01-01 00:06:00    2

Answer 2

按照约翰的回答，我把一个有用的信息图放在一起，应该一劳永逸地解决这个问题：

Answer 3

重要的是，重新取样是通过首先生成一个时间序列（不是时间段，间隔，持续时间）的光栅来执行的，并且它是独立于“标签”而完成的。并且关闭了＃39;参数。它只使用＆＃39; freq＆＃39;参数和＆＃39; loffset＆＃39;。在您的情况下，系统将生成以下栅格：

2000-01-01 00:00:00
2000-01-01 00:03:00
2000-01-01 00:06:00
2000-01-01 00:09:00

再次注意，此时间隔或期间没有解释。您可以使用＆＃39; loffset＆＃39;。

进行转换

然后系统将使用关闭的＆＃39; ordre中的参数可在两个选项中进行选择：

（开始，结束）
[开始，结束]

此处的开始和结束是栅格中的两个相邻时间戳。标签＆＃39;参数用于选择开始或结束是否用作间隔的代表。

在您的示例中，如果您选择关闭=＆＃39;正确＆＃39;然后你会得到以下间隔：

( previous_interval , 2000-01-01 00:00:00] - {0}
(2000-01-01 00:00:00, 2000-01-01 00:03:00] - {1,2,3}
(2000-01-01 00:03:00, 2000-01-01 00:06:00] - {1,2,3}
(2000-01-01 00:06:00, 2000-01-01 00:09:00] - {4,5,6}
(2000-01-01 00:09:00, next_interval ] - {7,8}

请注意，在这些时间间隔内汇总值后，结果将显示为两个版本，具体取决于＆＃39;标签＆＃39;参数，即是否由其左或右时间戳表示同一个间隔。

如何理解pandas resample方法中的闭包和标签参数？

3 个答案: