基于条件对数据帧进行排序,并通过动态分配给随机向量来返回所有组

时间:2015-12-30 20:07:19

标签: python r dataframe

例如: INPUT DATAFRAME 是: -

INPUT     group
4000       1
4000       1
2000       2
3000       3
2000       4
2000       4
2000       4

输出: - 动态分配给任意随机向量并生成输出为: - 具有最大重复组编号的第一个数据帧,具有重复组的第二高元素的第二个数据帧,依此类推......

输出
1。第一

INPUT     group
2000        4
2000        4
2000        4

2.second

INPUT        group
4000        1
4000        1  

3.third

INPUT        group
2000        2

4.fourth

INPUT        group
3000        3  

用更简单的词语 - 我想将数据帧划分为一些组,在结果中,我希望通过分配一些变量来按升序排列所有组。 到目前为止,我试过这个:

x<-setDT(df)[, group := rleid(df$INPUT)]

这会对小组进行排序。我又尝试了一次,即:

y<-x[x$group == which.max(tabulate(x$group)), ] 

但这只返回具有最大重复组元素数的组。

3 个答案:

答案 0 :(得分:2)

在Python Pandas中,您可以执行以下操作:

创建DF:

import pandas as pd
df = pd.DataFrame()
df['INPUT'] = [4000,4000,2000,3000,2000,2000,2000]
df['group'] = [1,1,2,3,4,4,4]

按组分组并获取每个组的大小,将此大小作为列添加到DF并按升序排序:

df = df.merge(pd.DataFrame(df.groupby('group').size()).reset_index()).sort_values(0,ascending=False)

然后,循环通过DF以获得每次所需的部分:

for i,x in enumerate(df['group'].unique()):
print 'ouput',i
print df[df['group']==x].ix[:,:-1].reset_index(drop=True)
print 

这给你以下内容:

    ouput 0
    INPUT  group
0   2000      4
1   2000      4
2   2000      4

    ouput 1
    INPUT  group
0   4000      1
1   4000      1

    ouput 2
    INPUT  group
0   2000      2

    ouput 3
    INPUT  group
0   3000      3

答案 1 :(得分:2)

我不确定您是否需要一次性输出所有输出。但这是一个可能有所帮助的想法。我正在使用dplyr包。首先让我重新创建您提供的数据集作为输入:

library(dplyr)
DF <- data.frame(INPUT = c(4000,4000,2000,3000,2000,2000,2000), group = c(1,1,2,3,4,4,4))
df <- tbl_df(DF)
df

输出

  INPUT group
  (dbl) (dbl)
1  4000     1
2  4000     1
3  2000     2
4  3000     3
5  2000     4
6  2000     4
7  2000     4

现在我将创建一个辅助表,告诉我每组有多少行,这个表已经从最大到最小排序:

aux <- df %>% group_by(group) %>% summarise(n = n()) %>% arrange(-n)
aux

输出

  group     n
  (dbl) (int)
1     4     3
2     1     2
3     2     1
4     3     1

所以我们看到第4组出现3次,第1组出现两次,依此类推。 现在我可以轻松地“提取”我想要的组从max到min:

ymax <- df %>% filter(group == aux$group[1])
y2 <- df %>% filter(group == aux$group[2])
y3 <- df %>% filter(group == aux$group[3])
ymin <- df %>% filter(group == aux$group[4])

输出

ymax
  INPUT group
  (dbl) (dbl)
1  2000     4
2  2000     4  
3  2000     4  

y2
  INPUT group
  (dbl) (dbl)
1  4000     1
2  4000     1  

y3
  INPUT group
  (dbl) (dbl)
1  2000     2  

ymin
  INPUT group
  (dbl) (dbl)
1  3000     3

我希望这会有所帮助 我只想补充一点,你当然可以立刻得到所有这些:

ylist <- lapply(1:nrow(aux), function(x) {filter(df, group == aux$group[x])})

输出

[[1]]
Source: local data frame [3 x 2]

  INPUT group
  (dbl) (dbl)
1  2000     4
2  2000     4
3  2000     4

[[2]]
Source: local data frame [2 x 2]

  INPUT group
  (dbl) (dbl)
1  4000     1
2  4000     1

[[3]]
Source: local data frame [1 x 2]

  INPUT group
  (dbl) (dbl)
1  2000     2

[[4]]
Source: local data frame [1 x 2]

  INPUT group
  (dbl) (dbl)
1  3000     3

答案 2 :(得分:1)

印度先生 - 试试这个。

library(sqldf)
Input=c('4000','4000','2000','3000','2000','2000','2000')   
gr<-c('1','1','2','3','4','4','4')
DF<-data.frame(Input,gr)
NewDF<-data.frame()
DF<-sqldf("select  distinct Input, gr, count(*) as C from DF group by Input, gr order by C desc")
for (i in 1:nrow(DF))
  assign(paste("NewDF_",i,sep=""),na.omit(DF[i,][rep(row.names(DF), DF$C), 1:2]))

这将创建4个具有所需输出的不同数据帧。