R添加数据行并按组汇总

时间:2015-10-13 02:26:23

标签: r group-by

从最近的R课程看到我的笔记,在Q和As中,我需要用来获得我需要的最可能的功能似乎是colsum,而groupby但不知道怎么做,你能帮我解决吗?

(首先我试着看一下总结和分组,但没有走远)

我有什么

player year  team  rbi
a      2001  NYY   56
b      2001  NYY   22      
c      2001  BOS   55
d      2002  DET   77

想要的结果

year  team rbi
2001  NYY  78
2001  BOS  55
2002  DET  77

球员名字丢失了,为什么?

我想使用各个玩家RBI的

为每个团队添加每年的RBI

因此,对于每年应该允许32个球队,并且对于这些球队中的每一个,应该有一个RBI号码,这是所有参与特定年份的每支球队的球员的总和。

谢谢

4 个答案:

答案 0 :(得分:2)

data.table方法是将'data.frame'转换为'data.table'(setDT(df)),按'年'和'团队'分组,我们得到{{1} 'rbi'。

sum

注意:'播放器'名称丢失,因为我们在汇总步骤中没有使用该变量。

答案 1 :(得分:2)

根据@bunk的评论,您可以使用aggregate功能

aggregate(df$rbi, list(df$team, df$year), sum )

#  Group.1 Group.2  x
#1     BOS    2001 55
#2     NYY    2001 78
#3     DET    2002 77

根据@ akrun的评论保持列名不变,你可以使用

aggregate(rbi ~ team + year, data = df, sum)

答案 2 :(得分:1)

假设df包含您的玩家数据,那么您可以通过

获得所需的结果
library(dplyr)
df %>%
   group_by(year, team) %>%
   summarise(rbi = sum(rbi))

由于player子句中未包含group_by列,因此summarise未使用rbi来汇总<?php $uploadstatus = 1; $found = 0; $filename = $file_path; $file_m1 = "m1"; $file_m2 = "m2"; $file_m3 = "m3"; $file_m4 = "m4"; if (file_exists($filename) && $uploadstatus) { if (!$found) { include ('conn.php'); //get the file $handle = fopen($filename,"r"); do { if (isset($data[0])) { $data0 = mysql_real_escape_string($data[0]); //rcode $data1 = mysql_real_escape_string($data[1]); //pcode $data2 = mysql_real_escape_string($data[2]); //mcode $data3 = mysql_real_escape_string($data[3]); //bcode $data4 = mysql_real_escape_string($data[4]); //ecode $data5 = mysql_real_escape_string($data[5]); //filetype $data6 = mysql_real_escape_string($data[6]); //rec_count $data7 = mysql_real_escape_string($data[7]); //gen_count $data8 = mysql_real_escape_string($data[8]); //be_count $data9 = mysql_real_escape_string($data[9]); //qc_count $data10 = mysql_real_escape_string($data[10]); //tran_count $data11 = mysql_real_escape_string($data[11]); //rm_count $data12 = mysql_real_escape_string($data[12]); //sc_count $data13 = mysql_real_escape_string($data[13]); //in_count $data14 = mysql_real_escape_string($data[14]); //en_count $data15 = mysql_real_escape_string($data[15]); //co_count $data16 = mysql_real_escape_string($data[16]); //ve_count $data17 = mysql_real_escape_string($data[17]); //ed_count // file_m1 = rec_count, gen_count,be_count,qc_count,tran_count if (strpos($filename , $file_m1)) { $query = "INSERT INTO tbltest (rcode,pcode,mcode,bcode,ecode,filetype,rec_count,gen_count,be_count,qc_count,tran_count,) VALUES ('$data0','$data1','$data2','$data3','$data4','$data5','$data6','$data7','$data8','$data9','$data10') ON DUPLICATE KEY UPDATE rec_count=values(rec_count),gen_count=values(gen_count),be_count=values(be_count), qc_count=values(qc_count),tran_count=values(tran_count)"; } // file_m2 = rm_count, sc_count, in_count else if (strpos($filename , $file_m2)) { $query = "INSERT INTO tbltest (rcode,pcode,mcode,bcode,ecode,filetype,rm_count,sc_count,in_count) VALUES ('$data0','$data1','$data2','$data3','$data4','$data5','$data11','$data12','$data13') ON DUPLICATE KEY UPDATE rm_count=values(rm_count),sc_count=values(sc_count),in_count=values(in_count)"; } //file_m3 = en_count, co_count, ve_count, ed_count else if (strpos($filename , $file_m3)) { $query = "INSERT INTO tbltest (rcode,pcode,mcode,bcode,ecode,filetype,en_count,co_count,ve_count,ed_count) VALUES ('$data0','$data1','$data2','$data3','$data4','$data5','$data14','$data15','$data16','$data17') ON DUPLICATE KEY UPDATE en_count=values(en_count),co_count=values(co_count),ve_count=values(ve_count),ed_count=values(ed_count)"; } // file_m4 = rm_count, sc_count, in_count,en_count, co_count, ve_count, ed_count else if (strpos($filename , $file_m4)) { $query = "INSERT INTO tbltest (rcode,pcode,mcode,bcode,ecode,filetype,rm_count,sc_count,in_count,en_count,co_count,ve_count,ed_count) VALUES ('$data0','$data1','$data2','$data3','$data4','$data5','$data11','$data12','$data13','$data14','$data15','$data16','$data17') ON DUPLICATE KEY UPDATE rm_count=values(rm_count),sc_count=values(sc_count),in_count=values(in_count) en_count=values(en_count),co_count=values(co_count),ve_count=values(ve_count),ed_count=values(ed_count)"; } mysql_query ($query,$connect); } //if } while ($data = fgetcsv($handle,1000,"|")); //do } //found } // if exist } //if server ?> 中的数据}专栏。

答案 3 :(得分:0)

感谢您帮助解决我的问题,这可以在流行的电子表格程序中轻松完成,但我决定在R中做到这一点,我喜欢这个程序,它虽然有学习曲线但是它的库是

当我通过最终运行的行数来评估答案时,有4个提案可以解决我的问题,其中3个工作正常,因为我知道相关数据框的答案应该是什么。

1)Arun的建议工作得很好,它使用了一个新的库(data.table)我在这个库上读了一些看起来很有趣

  library(data.table) 
  setDT(df)[, .(rbi=sum(rbi)), by= .(year, team)]

2)Alexs的建议也很好,这是

  library(dplyr)
  df %>%
  group_by(year, team) %>%
  summarise(rbi = sum(rbi))

3)Akruns解决方案也很好。这是我最喜欢的一个,因为团队专栏按字母顺序排列,按年份和团队排序,而前两个解决方案需要指定您希望按年份排序然后按团队排序

  aggregate(list(rbi=df$rbi), list(team=df$team, year=df$year), sum )

4)Ronak的解决方案几乎工作,在2775行中,结果必须有这个解决方案只带来了2761代码是:

aggregate(rbi ~ team + year, data = df, sum)

再次感谢大家

哈维尔