我是python / pandas用户,对此有疑问。 我有一个Excel文件如下。
C1 C2 C3 C4 C5 C6 ID Value
0 aa ee ii mm aaaaa bbbb 1 100
1 bb ff jj nn cccc ddddd 2 50
2 aa ee ii mm eeee ffff 3 20
3 dd hh ll pp gggg hhhh 4 10
4 aa ee ii mm abcd efgh 5 5
5 bb ff jj nn aaaaa bbbb 6 2
重现的代码 -
df = pd.DataFrame({'Value': [100,50,20,10,5,2],
'ID': [1,2,3,4,5,6],
'C1': ['aa','bb','aa','dd','aa','bb'],
'C2': ['ee','ff','ee','hh','ee','ff'],
'C3': ['ii','jj','ii','ll','ii','jj'],
'C4': ['mm','nn','mm','pp','mm','nn'],
'C5': ['aaaaa','cccc','eeee','gggg','abcd','aaaaa'],
'C6': ['bbbb','ddddd','ffff','hhhh','efgh','bbbb']})
某些行在第1-4列中是重复的(例如,ID1,ID3和ID5或ID2和ID6是重复的)。 有没有办法组合重复的行? (我专注于第1-4栏,我不关心第5栏和第6栏)
我想结合"价值"重复的行并保留顶部列的顺序。例如,这是我要制作的输出文件。
Value ID C1 C2 C3 C4 C5 C6
0 125 1 aa ee ii mm aaaaa bbbb
1 52 2 bb ff jj nn cccc ddddd
2 10 4 dd hh ll pp gggg hhhh
如果你能给我你的意见,我会非常感激。
答案 0 :(得分:3)
可能还有其他有效的方法,一种方法可能是:
创建new_df
,以便在Column1
首次出现时保留唯一值。
然后,原始df
在按Column1
分组并更新new_df
您可以尝试如下所示:
new_df = df.drop_duplicates(subset='Column1', keep='first').reset_index()
del new_df['index'] # remove extra index column after reset index
new_df['Value'] = df.groupby('Column1', as_index=False).sum()['Value']
print(new_df)
结果:
ID Value Column1 Column2 Column3 Column4 Column5 Column6
0 1 125 aa ee ii mm aaaaa bbbb
1 2 52 bb ff jj nn cccc ddddd
2 4 10 dd hh ll pp gggg hhhh
在已修改后检查数据框:
new_df = df.drop_duplicates(subset='C1', keep='first').reset_index()
del new_df['index']
new_df['Value'] = df.groupby('C1', as_index=False).sum()['Value']
print(new_df)
结果:
C1 C2 C3 C4 C5 C6 ID Value
0 aa ee ii mm aaaaa bbbb 1 125
1 bb ff jj nn cccc ddddd 2 52
2 dd hh ll pp gggg hhhh 4 10
答案 1 :(得分:1)
您可以使用groupby.agg
。我假设您希望总结value
并为每个组取第一个id
,就像您想要的输出一样。这是一个最小的例子:
df = pd.DataFrame([[100, 1, 'a', 'b'], [20, 2, 'a', 'b'],
[15, 3, 'c', 'd'], [5, 4, 'a', 'b'],
[25, 5, 'c', 'd']], columns=['value', 'id', 'col1', 'col2'])
res = df.groupby(['col1', 'col2']).agg({'id': 'first', 'value': sum}).reset_index()
print(res)
col1 col2 id value
0 a b 1 125
1 c d 3 40