合并以相同字母开头的pandas DataFrame列

时间:2019-06-07 03:36:45

标签: python pandas dataframe merge

假设我有一个DataFrame

>>> df = pd.DataFrame({'a1':[1,2],'a2':[3,4],'b1':[5,6],'b2':[7,8],'c':[9,0]})
>>> df
   a1  a2  b1  b2  c
0   1   3   5   7  9
1   2   4   6   8  0
>>> 

我想合并(也许不是合并,而是将其名称的第一个字母都相等的列)合并,例如a1a2等,但是正如我们所看到的,是一个c列,它本身没有任何其他类似的列,因此我希望它们不要抛出错误,而是向它们添加NaN

我想以某种方式合并,将宽DataFrame更改为长DataFrame,基本上就像从宽到长的修改一样。

我已经有解决问题的方法,但是唯一的问题是它的效率很低,我想要一个更高效,更快速的解决方案(与我的:P不同),我目前有一个for循环和一个{ {1}} try(嗯,听起来已经很糟糕了)代码,例如:

except

我想用更好的代码获得相同的结果。

7 个答案:

答案 0 :(得分:4)

我建议使用melt,然后推荐pivot。要解决重复项,您需要绕过一个累加的列。

u = df.melt()
u['variable'] = u['variable'].str[0]  # extract the first letter
u.assign(count=u.groupby('variable').cumcount()).pivot('count', 'variable', 'value')

variable    a    b    c
count                  
0         1.0  5.0  9.0
1         2.0  6.0  0.0
2         3.0  7.0  NaN
3         4.0  8.0  NaN

可以将其重写为

u = df.melt()
u['variable'] = [x[0] for x in u['variable']]
u.insert(0, 'count', u.groupby('variable').cumcount())

u.pivot(*u)

variable    a    b    c
count                  
0         1.0  5.0  9.0
1         2.0  6.0  0.0
2         3.0  7.0  NaN
3         4.0  8.0  NaN

如果性能很重要,则可以选择pd.concat

from operator import itemgetter

pd.concat({
    k: pd.Series(g.values.ravel()) 
    for k, g in df.groupby(operator.itemgetter(0), axis=1)
}, axis=1)

   a  b    c
0  1  5  9.0
1  3  7  0.0
2  2  6  NaN
3  4  8  NaN

答案 1 :(得分:3)

我们可以尝试分组列(public void getBusStopInfo() { HttpService httpService = NetManager.getInstance().create(HttpService.class); Observable<GdResultData> observable = httpService.findByRoute(id); RxManager.getInstance().getHttpListResult(observable, newRxSubscriber<GdResultBean<List<BusStopServerBean>>>(getContext()) { @Override protected void _onError(Throwable e) { e.printStackTrace(); if (mLoadingDialog != null) { mLoadingDialog.dismiss(); } } @Override protected void _onNext(GdResultBean<List<BusStopServerBean>>listGdResultBean) { if (listGdResultBean.getErrorID() != HttpFields.HTTP_RESULT_OK) { return; } List<BusStopServerBean> object = listGdResultBean.getObject(); for (BusStopServerBean busStopServerBean : object) { if (isMmLanguage) { mMap.addMarker(new MarkerOptions().position(new LatLng(busStopServerBean.getLat(), busStopServerBean.getLng())) .title(busStopServerBean.getNameMm()).snippet(busStopServerBean.getRoadMm()) .icon(BitmapDescriptorFactory.fromResource(R.mipmap.bus_stop_circler)).alpha(0.9f).flat(true)) .setTag(busStopServerBean.getId()); } else { mMap.addMarker(new MarkerOptions().position(new LatLng(busStopServerBean.getLat(), busStopServerBean.getLng())) .title(busStopServerBean.getNameEn()).snippet(busStopServerBean .getRoadEn()).icon(BitmapDescriptorFactory.fromResource(R.mipmap.bus_stop_circler)) .alpha(0.9f).flat(true)).setTag(busStopServerBean.getId()); } } insertBusLine(object); mLoadingDialog.dismiss(); } }, BusStopServerBean.class); } private void insertBusLine(List<BusStopServerBean> object) { if (object == null || object.size() == 0) { return; } LatLngBounds.Builder boundBuilder = new LatLngBounds.Builder(); LatLng latLng; //This is for route PolylineOptions polylineOptions = new PolylineOptions() .color(Color.parseColor(color)) .geodesic(false) .width(5); //this is for geo points latlng over 100 obj size for (BusStopServerBean busStopServerBean : object) { latLng = new LatLng(busStopServerBean.getLat(), busStopServerBean.getLng());busStopServerBean.getLng())); polylineOptions.add(latLng); boundBuilder.include(latLng); } mMap.addPolyline(polylineOptions);//this is show route on map[enter image description here][1] mMap.moveCamera(CameraUpdateFactory.newLatLngBounds(boundBuilder.build(), 11)); } ):

axis=1

输出:

def f(g,a):
    ret = g.stack().reset_index(drop=True)
    ret.name = a
    return ret

pd.concat( (f(g,a) for a,g in df.groupby(df.columns.str[0], axis=1)), axis=1)

答案 2 :(得分:3)

使用字典理解:

df = pd.DataFrame({i: pd.Series(x.to_numpy().ravel()) 
                      for i, x in df.groupby(lambda x: x[0], axis=1)})
print (df)
   a  b    c
0  1  5  9.0
1  3  7  0.0
2  2  6  NaN
3  4  8  NaN

答案 3 :(得分:2)

我知道这不像使用melt那样好,但是由于将其推送到一行中,如果您确实需要更快的解决方案,请尝试使用cs95的解决方案

df.groupby(df.columns.str[0],1).agg(lambda x : x.tolist()).sum().apply(pd.Series).T
Out[391]: 
     a    b    c
0  1.0  5.0  9.0
1  3.0  7.0  0.0
2  2.0  6.0  NaN
3  4.0  8.0  NaN

答案 4 :(得分:1)

使用renamegroupby.apply

df = (df.rename(columns = dict(zip(df.columns, df.columns.str[:1])))
        .groupby(level=0, axis=1, group_keys=False)
        .apply(lambda x: pd.DataFrame(x.values.flat, columns=np.unique(x.columns))))

print(df)
   a  b    c
0  1  5  9.0
1  3  7  0.0
2  2  6  NaN
3  4  8  NaN

答案 5 :(得分:1)

pd.concatpd.meltpd.groupby结合使用:

pd.concat([d.T.melt(value_name=k)[k] for k, d in df.groupby(df.columns.str[0], 1)], 1)

输出:

   a  b    c
0  1  5  9.0
1  3  7  0.0
2  2  6  NaN
3  4  8  NaN

答案 6 :(得分:1)

此解决方案与cs95的解决方案相似,并且速度提高了两到三倍。

grouping = df.columns.map(lambda s: int(s[1:]) if len(s) > 1 else 1)
df.columns = df.columns.str[0]   # Make a copy if the original dataframe needs to be retained
result = pd.concat((g for _, g in df.groupby(grouping, axis=1)), 
                   axis=0, ignore_index=True, sort=False)

输出

    a   b   c
0   1   5   9.0
1   2   6   0.0
2   3   7   NaN
3   4   8   NaN