Question

我正在将一个很大的Excel文件读入一个数据框

Date    Lane    Lane Name   Direction   DirectionName   Speed (mph) Headway (s) Gap (s) Flags   Flag Text
0   2018-02-02 00:00:03.000 6   SB_NS   2   South   38.525  NaN NaN 5   Friday
1   2018-02-02 00:00:22.010 5   SB_MID  2   South   32.310  NaN NaN 5   Friday
2   2018-02-02 00:00:22.020 4   SB_OS   2   South   44.739  NaN NaN 5   Friday
3   2018-02-02 00:00:36.040 6   SB_NS   2   South   33.554  NaN NaN 5   Friday
4   2018-02-02 00:00:49.070 6   SB_NS   2   South   39.768  12.300  11.847  5   Friday
... ... ... ... ... ... ... ... ... ... ...
503763  2018-02-27 23:59:00.090 2   NB_MID  1   North   32.932  4.415   3.833   2   Tuesday
503764  2018-02-27 23:59:29.090 6   SB_NS   2   South   29.825  65.500  64.700  2   Tuesday
503765  2018-02-27 23:59:32.050 4   SB_OS   2   South   29.205  236.000 235.848 2   Tuesday
503766  2018-02-27 23:59:33.070 6   SB_NS   2   South   37.283  3.330   3.462   2   Tuesday
503767  2018-02-27 23:59:58.050 1   NB_NS   1   North   36.661  76.000  75.669  2   Tuesday
503768 rows × 10 columns

我删除了不需要的列。我只对[DirectionName = South]的某些日期和数据感兴趣。我还留下了“标志文字”，而该文本只是一周中的一天。我还设置了DateTime格式并使其成为索引。

下面的代码是我用来指定要使用的日期的代码：

#df.sort_index(inplace=True)
df = df.loc[(df.DirectionName =="South")] 

# Specify dates to use
myDates = ['2018-02-02', '2018-02-09', '2018-02-16', '2018-02-23']
df_in = df[pd.to_datetime(df.index.date).isin(myDates)]
df

哪个给我这个输出：

                DirectionName   FlagText   
Date        
2018-02-02 00:00:03.000 South   Friday
2018-02-02 00:00:22.010 South   Friday
2018-02-02 00:00:22.020 South   Friday
2018-02-02 00:00:36.040 South   Friday
2018-02-02 00:00:49.070 South   Friday
... ... ...
2018-02-27 23:58:20.070 South   Tuesday
2018-02-27 23:58:23.040 South   Tuesday
2018-02-27 23:59:29.090 South   Tuesday
2018-02-27 23:59:32.050 South   Tuesday
2018-02-27 23:59:33.070 South   Tuesday
251528 rows × 2 columns

我希望能够计算所选日期的总行数。例如，我想计算日期02-02-2018的每一行。最终，我希望能够计算当天（每小时0am> 23:59 pm）每小时的总数。

这是我想要的输出的一个示例：

 DirectionName   Flag Text              Count
Date        
2018-02-02 01:00:00.000 South   Friday   234
2018-02-02 02:00:00.000 South   Friday   554
2018-02-02 03:00:00.000 South   Friday   785
2018-02-02 04:00:00.000 South   Friday   124
2018-02-02 05:00:00.000 South   Friday   345
... ... ...

如何将每小时的日期进行分组，如上所示？
然后如何计算该小时范围内的日期？
我可以多次使用此方法吗？（四个不同的日期）

我曾尝试查看其他帖子/文档，但由于将日期放入索引而感到困惑。我认为这更合理。

我们将非常感谢您的帮助和澄清

Answer 1

您可以创建另一个列，该列的（a）天日期（b）日期直到小时。

类似这样的东西：

df['day-date'] = pd.to_datetime(df.Date, format='%Y-%m-%d')
df['hour-date'] = pd.to_datetime(df.Date, format='%Y-%m-%d %H')

然后对以下各列进行分组依据：

day_sum_df = df.groupby(['day-date']).sum()
hour_sum_df = df.groupby(['hour-date']).sum()

Answer 2

使用分组依据对日期进行分组，然后使用计数。

# if your date column is in date plus time then convert it to date then group by date then count of Date column
df.groupby([df['Date'].dt.date])['Date'].count()

如果您的日期已经是日期格式，则可以简单地

df.groupby('Date')['Date'].count()

熊猫Python-统计和分组日期时间索引

2 个答案: