按日期重新组织数据并计算r

时间:2018-05-02 18:26:39

标签: r reorganize

我的数据如下所示:

> head(z, 10)
         date year      long      lat
1  01/18/2017 2017 -92.48474 29.76465
2  01/22/2017 2017 -93.11126 29.83961
3  12/28/2013 2013 -91.30789 29.41938
4  01/08/2014 2014 -93.09949 29.80632
5  01/03/2014 2014 -90.55703 29.44535
6  12/31/2013 2013 -90.39836 29.57244
7             2013 -93.56322 30.30028
8  11/24/2013 2013 -93.45932 29.78530
9  11/19/1994 1994 -93.58333 29.75000
10 11/15/2013 2013 -89.16171 29.45222

某些日子有多个条目,而有些条目没有日期。没有约会的人我不感兴趣。我想知道的是每个日期有多少记录,并且在没有创建记录的情况下插入缺失的日期,因此每年的每一天都有记录。年份是否记录了数据,例如:

> head(z2)
     m_d y_2017 y_2016 y_2015 y_2014 y_2013
1 01-02     16     15      0     29      9
2 01-03      0     38     25     10      3
3 01-04     13     20     14      5      7
4 01-05     19      0      3      0     16
5 01-06     34     25     29     33     24
6 01-07      3     10      5     34      7

使用聚合函数,我已经能够计算出每天有多少条记录。

> #create a value for the aggregate function to sum
z$count<-rep(1, length(z$year))
m<-aggregate(count ~ date, data = z, sum)
> head(m)
            date count
1                  308
2     01/01/1980     1
3     01/01/1985     1
4     01/01/1995     1
5     01/01/1996     2
6     01/01/1997     1

我不知道如何从这张桌子(这是我需要的信息)转变为我想要的资源格式。我可以按年手动分配,并将每年的数据与该年的一整套月/天合并,然后使用所有不同的年份创建一个新的df,但这似乎过于繁琐和重复,因为我有数据可以追溯到1980年。任何人都知道将这些数据重新组织成上述格式的有效方法吗?

3 个答案:

答案 0 :(得分:0)

如果我正确理解您的问题,我会使用https://aladdin:sesame@script.google.com/macros/s/AKfyuglyuglyuglyS6i-g/dev套餐中的separate()来分割日期&#39;列到&#39; m_d&#39;和&#39;年&#39;。然后,使用同一个包中的tidyr将此长表更改为更宽。完成此步骤后,您可以获得包含姓氏&#39; m_d&#39;,&#39; y_2017&#39;&#39; y_2016&#39; ......您可以{{1}的数据框稍后计数。

答案 1 :(得分:0)

使用Base R:

/Gx4aOgplRXMRI2qXXqXiQ==

答案 2 :(得分:0)

您可以轻松创建一个参考数据框,其中包含从1980年到现在的所有日期:

df$date <- as.Date(df$date, format = "%m/%d/%Y")
all_dates <- seq(from = as.Date("1980-01-01"), to = as.Date("2018-05-02"), by = 'days'))
ref_dates = data.frame(date = all_dates)

df <- merge(df, ref_dates, all.y = TRUE)
df$date <- substring(df$date, 6,10)  # remove year from date column

df_table <- table(df$date, df$year) # cross tab
final_df <- as.data.frame.matrix(df_table) # convert into dataframe if you like