我有2个数据框,如下所示: 数据框df1:
id val1 val2 val3 val4 val5
abc 0.0 1.0 4.0 3.0 4.0
dsssd 0.0 1.0 1.0 1.0 1.0
dsd 0.0 4.0 7.0
另一个数据框df2:
id val1 val2 val3 val4 val5
abc 88 76 55 43 21
dsssd 92.4 21.3 22 45 49
dsd 22.3 87.2 78.2
df1包含列索引作为值。我想创建具有df2对应索引值的df3。 预期结果df3:
id val1 val2 val3 val4 val5
abc 88 76 21 43 21
dsssd 92.4 21.3 21.3 21.3 21.3
dsd 22.3 nan nan
我已经研究了df.lookup和iloc,但无法了解如何完成。我仍在寻找解决方案。同时,如果有人知道它是如何完成的,我会在这里发布。
import pandas as pd
import numpy as np
df1= pd.DataFrame({'id': ['abs', 'dssd', 'dsd'],
'val1': [0.0, 0.0, 0.0],
'val2': [1.0, 1.0, 4.0],
'val3': [4.0, 1.0, 7.0],
'val4': [3.0, 1.0, np.nan],
'val5': [4.0, 1.0, np.nan]})
df2= pd.DataFrame({'id': ['abs', 'dssd', 'dsd'],
'val1': [88.0, 92.4, 22.3],
'val2': [76.0, 21.3, 87.2],
'val3': [55.0, 22.0, 78.2],
'val4': [43.0, 45.0, np.nan],
'val5': [21.0, 49.0, np.nan]})
谢谢!
答案 0 :(得分:1)
您可以将DataFrame.set_index
与DataFrame.stack
一起使用以进行整形,通过GroupBy.cumcount
添加计数器列,通过DataFrame.merge
进行左联接,最后通过DataFrame.pivot
进行变更顺序的数据透视DataFrame.reindex
中id
的第:
df11 = df1.set_index('id').stack().rename_axis(index=['id','v']).reset_index(name='idx')
# print (df11)
df22 = df2.set_index('id').stack().rename_axis(index=['id','v']).reset_index(name='val')
df22['idx'] = df22.groupby('id').cumcount()
# print (df22)
df = (df11.merge(df22, on=['id','idx'], how='left')
.pivot(index='id', columns='v_x', values='val')
.reindex(df1['id'])
.rename_axis(None, axis=1)
.reset_index()
)
print (df)
id val1 val2 val3 val4 val5
0 abs 88.0 76.0 21.0 43.0 21.0
1 dssd 92.4 21.3 21.3 21.3 21.3
2 dsd 22.3 NaN NaN NaN NaN
答案 1 :(得分:0)
使用合并
https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
pd.merge(df1, df2, how='outer', left_on='id', right_on='id',
left_index=False, right_index=False, sort=True,
suffixes=('_x', '_y'), copy=True, indicator=False,
validate=None)