对列进行排序并在每个组中选择前n行pandas数据帧

时间:2017-01-24 10:38:22

标签: python pandas

我有一个这样的数据框:

template<typename T>
struct converter_visitor : public boost::static_visitor<T>
{
    const _var &converter;
    converter_visitor(const _var &r) : converter(r) {}
    T operator()(const _var &) const{
        return boost::get<_var>(converter);
    }

    const _vec_var &v_converter;            // case of vector<>
    converter_visitor(const _vec_var &r) : v_converter(r) {}
    T operator()(const _vec_var &) const{
        T ans;
        ans.reserve(_cont.size());
        for (int i = 0; i < _cont.size(); ++i)
            ans.push_back(boost::get<T>(v_converter[i]));
        return ans;
    }

    const _vec2_var & v2_converter;         // case of vector<vector>
    converter_visitor(const _vec2_var &r) : v2_converter(r) {}
    T operator()(const _vec2_var &) const {
        T ans;
        ans.reserve(v2_converter.size(), v2_converter[0].size());
        for (int i = 0; i < _cont.size(); ++i)
        {
            for (size_t j = 0; j < v2_converter[0].size(); j++)
            {
                ans.push_back(boost::get<T>(v2_converter[i][j]));
            }
        }
        return ans;
    }
};

int main()
{
    _var variable = 1;
    int integer_conversion;
    boost::apply_visitor(converter_visitor(test), integer_conversion);
    return 0;
}

我希望mainid pidx pidy score 1 a b 2 1 a c 5 1 c a 7 1 c b 2 1 a e 8 2 x y 1 2 y z 3 2 z y 5 2 x w 12 2 x v 1 2 y x 6 然后groupby on column 'pidx',即每个pidx

然后sort score in descending order in each group,即每组的前2名。

我要找的结果是这样的:

select head(2)

我尝试的是:

mainid   pidx    pidy    score
  1        a      e        8
  1        a      c        5
  1        c      a        7
  1        c      b        2
  2        x      w        12
  2        x      y        1
  2        y      x        6
  2        y      z        3
  2        z      y        5

这似乎有效,但我不知道如果处理庞大的数据集,它是否是正确的方法。我可以用什么其他最好的方法来获得这样的结果?

2 个答案:

答案 0 :(得分:15)

有两种解决方案:

1。sort_values和汇总head

df1 = df.sort_values('score',ascending = False).groupby('pidx').head(2)
print (df1)

    mainid pidx pidy  score
8        2    x    w     12
4        1    a    e      8
2        1    c    a      7
10       2    y    x      6
1        1    a    c      5
7        2    z    y      5
6        2    y    z      3
3        1    c    b      2
5        2    x    y      1

2. set_index和汇总nlargest

df = df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index() 
print (df)
  pidx  mainid pidy  score
0    a       1    e      8
1    a       1    c      5
2    c       1    a      7
3    c       1    b      2
4    x       2    w     12
5    x       2    y      1
6    y       2    x      6
7    y       2    z      3
8    z       2    y      5

<强>计时

np.random.seed(123)
N = 1000000

L1 = list('abcdefghijklmnopqrstu')
L2 = list('efghijklmnopqrstuvwxyz')
df = pd.DataFrame({'mainid':np.random.randint(1000, size=N),
                   'pidx': np.random.randint(10000, size=N),
                   'pidy': np.random.choice(L2, N),
                   'score':np.random.randint(1000, size=N)})
#print (df)

def epat(df):
    grouped = df.groupby('pidx')
    new_df = pd.DataFrame([], columns = df.columns)
    for key, values in grouped:
        new_df = pd.concat([new_df, grouped.get_group(key).sort_values('score', ascending=True)[:2]], 0)
    return (new_df)

print (epat(df))

In [133]: %timeit (df.sort_values('score',ascending = False).groupby('pidx').head(2))
1 loop, best of 3: 309 ms per loop

In [134]: %timeit (df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index())
1 loop, best of 3: 7.11 s per loop

In [147]: %timeit (epat(df))
1 loop, best of 3: 22 s per loop

答案 1 :(得分:0)

一个简单的解决方案是:

grouped = DF.groupby('pidx')

new_df = pd.DataFrame([], columns = DF.columns)

for key, values in grouped:

    new_df = pd.concat([new_df, grouped.get_group(key).sort_values('score', ascending=True)[:2]], 0)
希望它有所帮助!