Question

使用R。

这是我的数据集的一小部分，简化为仅显示相关列。数据取自Capital Bikeshare。下面的Start.Date列具有自行车的确切租赁时间。

Start.date              Member.type
2018-11-01 00:00:45     Member
2018-11-01 00:00:52     Casual
2018-11-01 00:01:46     Member
2018-11-01 01:00:02     Casual
2018-11-01 01:03:36     Member

我想做的是将所有数据按日期，一天中的小时，每种成员类型的数目以及任意一天中任何给定小时的成员类型总数（休闲+成员）进行分组。因此，最后，我将只有“天-小时-每个成员类型的租车数量”，这样我就可以预测一天中每小时的趋势，

这是我的相关代码

library(dplyr)
bikeData <- read.csv("2011data.csv")

bikeData <- bikeData %>%
  mutate(Hour = format(strptime(
    bikeData$Start.date, "%Y-%m-%d %H:%M:%S"), "%m-%d %H")) %>%
  mutate(day = wday(Start.date, label=TRUE)) 

groupData <- bikeData %>%
  mutate(Start.date = ymd_hms(Start.date)) %>%
  count(date1 = as.Date(Start.date), Hour1 = hour(Start.date),
        member=(Member.type)) %>%
  group_by(date1, Hour1) %>%
  arrange(date1, Hour1) %>%
  summarise(total=sum(n))

这给了我以下新的数据集groupData

date1          Hour1     total 
2018-11-01         0        82
2018-11-01         1        43 
2018-11-01         2        17 
2018-11-01         3         4   
2018-11-02         0         5 
2018-11-02         1        24

因此，我能够计算出数据集每天24小时内的Member + Casual总数，但是如何获得另外两列显示的是休闲总数，另一列显示的是会员？谢谢！

以下所需：

date1          Hour1     total     Casual     Member
2018-11-01         0        82        40          42
2018-11-01         1        43        20          23
2018-11-01         2        17        10           7
2018-11-01         3         4         1           3
2018-11-02         0         5         1           4
2018-11-02         1        24        20           4

Answer 1

groupData <- bikeData %>%
  mutate(Start.date = ymd_hms(Start.date)) %>%
  count(date1 = as.Date(Start.date), Hour1 = hour(Start.date),
        member=(Member.type)) %>%
  group_by(date1, Hour1) %>%
  arrange(date1, Hour1) %>%
  summarise(total=sum(n),members=sum(Member.type=="Member"),casuals=sum(Member.type=="Casual"))

您可以简单地将两个变量添加到您的摘要调用中，这些变量计算Member.type的逻辑出现次数，等于每个选项。

R-如何将一列中特定事件的总和加到另一列

1 个答案: