有没有办法在合并pandas DataFrames时在列之间执行计算?例如,假设我有以下两个DF,并且我想将相应ID的数据相乘:
df1 = DataFrame({'id':['a','b','c'], 'data':[8,7,12]})
df2 = DataFrame({'id':['b','a','c'], 'data':[3,2,1]})
所需的输出是:
id data
0 a 16
1 b 21
2 c 12
我知道可以通过合并和倍增来实现这一点:
merged = pd.merge(df1, df2, how='left', on=['id'])
merged['data'] = merged.data_x * merged.data_y
merged[['id', 'data']]
但是,对于大量列,这非常麻烦,尤其是因为合并的列名称具有_x
和_y
后缀。我想要的基本上是与以下SQL相当的熊猫:
SELECT a.id, a.data * b.data AS 'data'
FROM table a
LEFT JOIN table b
ON a.id = b.id
答案 0 :(得分:2)
在这种情况下,您可以简单地设置索引,然后乘以:
>>> df1 = pd.DataFrame({'id':['a','b','c'], 'data':[8,7,12]})
>>> df2 = pd.DataFrame({'id':['b','a','c'], 'data':[3,2,1]})
>>> df1.set_index("id") * df2.set_index("id")
data
id
a 16
b 21
c 12
如果您愿意,请使用reset_index
:
>>> (df1.set_index("id") * df2.set_index("id")).reset_index()
id data
0 a 16
1 b 21
2 c 12