假设我有一个DataFrame
:
>>> df = pd.DataFrame({'a1':[1,2],'a2':[3,4],'b1':[5,6],'b2':[7,8],'c':[9,0]})
>>> df
a1 a2 b1 b2 c
0 1 3 5 7 9
1 2 4 6 8 0
>>>
我想合并(也许不是合并,而是将其名称的第一个字母都相等的列)合并,例如a1
和a2
等,但是正如我们所看到的,是一个c
列,它本身没有任何其他类似的列,因此我希望它们不要抛出错误,而是向它们添加NaN
。
我想以某种方式合并,将宽DataFrame
更改为长DataFrame
,基本上就像从宽到长的修改一样。
我已经有解决问题的方法,但是唯一的问题是它的效率很低,我想要一个更高效,更快速的解决方案(与我的:P不同),我目前有一个for
循环和一个{ {1}} try
(嗯,听起来已经很糟糕了)代码,例如:
except
我想用更好的代码获得相同的结果。
答案 0 :(得分:4)
我建议使用melt
,然后推荐pivot
。要解决重复项,您需要绕过一个累加的列。
u = df.melt()
u['variable'] = u['variable'].str[0] # extract the first letter
u.assign(count=u.groupby('variable').cumcount()).pivot('count', 'variable', 'value')
variable a b c
count
0 1.0 5.0 9.0
1 2.0 6.0 0.0
2 3.0 7.0 NaN
3 4.0 8.0 NaN
可以将其重写为
u = df.melt()
u['variable'] = [x[0] for x in u['variable']]
u.insert(0, 'count', u.groupby('variable').cumcount())
u.pivot(*u)
variable a b c
count
0 1.0 5.0 9.0
1 2.0 6.0 0.0
2 3.0 7.0 NaN
3 4.0 8.0 NaN
如果性能很重要,则可以选择pd.concat
:
from operator import itemgetter
pd.concat({
k: pd.Series(g.values.ravel())
for k, g in df.groupby(operator.itemgetter(0), axis=1)
}, axis=1)
a b c
0 1 5 9.0
1 3 7 0.0
2 2 6 NaN
3 4 8 NaN
答案 1 :(得分:3)
我们可以尝试分组列(public void getBusStopInfo() {
HttpService httpService = NetManager.getInstance().create(HttpService.class);
Observable<GdResultData> observable = httpService.findByRoute(id);
RxManager.getInstance().getHttpListResult(observable, newRxSubscriber<GdResultBean<List<BusStopServerBean>>>(getContext()) {
@Override
protected void _onError(Throwable e) {
e.printStackTrace();
if (mLoadingDialog != null) {
mLoadingDialog.dismiss();
}
}
@Override
protected void _onNext(GdResultBean<List<BusStopServerBean>>listGdResultBean) {
if (listGdResultBean.getErrorID() != HttpFields.HTTP_RESULT_OK) {
return;
}
List<BusStopServerBean> object = listGdResultBean.getObject();
for (BusStopServerBean busStopServerBean : object) {
if (isMmLanguage) {
mMap.addMarker(new MarkerOptions().position(new LatLng(busStopServerBean.getLat(), busStopServerBean.getLng()))
.title(busStopServerBean.getNameMm()).snippet(busStopServerBean.getRoadMm())
.icon(BitmapDescriptorFactory.fromResource(R.mipmap.bus_stop_circler)).alpha(0.9f).flat(true))
.setTag(busStopServerBean.getId());
} else {
mMap.addMarker(new MarkerOptions().position(new LatLng(busStopServerBean.getLat(), busStopServerBean.getLng()))
.title(busStopServerBean.getNameEn()).snippet(busStopServerBean
.getRoadEn()).icon(BitmapDescriptorFactory.fromResource(R.mipmap.bus_stop_circler))
.alpha(0.9f).flat(true)).setTag(busStopServerBean.getId());
}
}
insertBusLine(object);
mLoadingDialog.dismiss();
}
}, BusStopServerBean.class);
}
private void insertBusLine(List<BusStopServerBean> object) {
if (object == null || object.size() == 0) {
return;
}
LatLngBounds.Builder boundBuilder = new LatLngBounds.Builder();
LatLng latLng;
//This is for route
PolylineOptions polylineOptions = new PolylineOptions()
.color(Color.parseColor(color))
.geodesic(false)
.width(5);
//this is for geo points latlng over 100 obj size
for (BusStopServerBean busStopServerBean : object) {
latLng = new LatLng(busStopServerBean.getLat(), busStopServerBean.getLng());busStopServerBean.getLng()));
polylineOptions.add(latLng);
boundBuilder.include(latLng);
}
mMap.addPolyline(polylineOptions);//this is show route on map[enter image description here][1]
mMap.moveCamera(CameraUpdateFactory.newLatLngBounds(boundBuilder.build(), 11));
}
):
axis=1
输出:
def f(g,a):
ret = g.stack().reset_index(drop=True)
ret.name = a
return ret
pd.concat( (f(g,a) for a,g in df.groupby(df.columns.str[0], axis=1)), axis=1)
答案 2 :(得分:3)
使用字典理解:
df = pd.DataFrame({i: pd.Series(x.to_numpy().ravel())
for i, x in df.groupby(lambda x: x[0], axis=1)})
print (df)
a b c
0 1 5 9.0
1 3 7 0.0
2 2 6 NaN
3 4 8 NaN
答案 3 :(得分:2)
我知道这不像使用melt那样好,但是由于将其推送到一行中,如果您确实需要更快的解决方案,请尝试使用cs95的解决方案
df.groupby(df.columns.str[0],1).agg(lambda x : x.tolist()).sum().apply(pd.Series).T
Out[391]:
a b c
0 1.0 5.0 9.0
1 3.0 7.0 0.0
2 2.0 6.0 NaN
3 4.0 8.0 NaN
答案 4 :(得分:1)
使用rename
和groupby.apply
:
df = (df.rename(columns = dict(zip(df.columns, df.columns.str[:1])))
.groupby(level=0, axis=1, group_keys=False)
.apply(lambda x: pd.DataFrame(x.values.flat, columns=np.unique(x.columns))))
print(df)
a b c
0 1 5 9.0
1 3 7 0.0
2 2 6 NaN
3 4 8 NaN
答案 5 :(得分:1)
将pd.concat
与pd.melt
和pd.groupby
结合使用:
pd.concat([d.T.melt(value_name=k)[k] for k, d in df.groupby(df.columns.str[0], 1)], 1)
输出:
a b c
0 1 5 9.0
1 3 7 0.0
2 2 6 NaN
3 4 8 NaN
答案 6 :(得分:1)
此解决方案与cs95的解决方案相似,并且速度提高了两到三倍。
grouping = df.columns.map(lambda s: int(s[1:]) if len(s) > 1 else 1)
df.columns = df.columns.str[0] # Make a copy if the original dataframe needs to be retained
result = pd.concat((g for _, g in df.groupby(grouping, axis=1)),
axis=0, ignore_index=True, sort=False)
输出
a b c
0 1 5 9.0
1 2 6 0.0
2 3 7 NaN
3 4 8 NaN