我有两个像这样的数据帧df1
和df2
:
示例:
x1 = [{'partner': "Afghanistan", 'trade_value':100, 'commodity': 1},
{'partner':"Zambia",'trade_value':110, 'commodity': 2},
{'partner': "Germany",'trade_value':120, 'commodity': 2},
{'partner': "Afghanistan",'trade_value':150, 'commodity': 2},
{'partner': "USA",'trade_value':1120, 'commodity': 5}];
df1 = pd.DataFrame(x1)
x2 = [{'country': "Afghanistan", 'commodity': 5, 'tariff': 3.5},
{'country': "Afghanistan", 'commodity': 3, 'tariff': 6.2},
{'country': "Afghanistan", 'commodity': 1, 'tariff': 9.9},
{'country': "Afghanistan", 'commodity': 2, 'tariff': 1.4},
{'country': "USA", 'commodity': 5, 'tariff': 4.3},
{'country': "Germany", 'commodity': 7, 'tariff': 6.5},
{'country': "Germany", 'commodity': 2, 'tariff': 8.8}];
df2 = pd.DataFrame(x2)
我想在df1
中添加一个名为“关税”的新列,并为df1
中的每个“合作伙伴”和“商品”分配来自df2
的相应“关税”。 / p>
请注意:由于多次交易,有时会在df1
中重复一个“伙伴”国家/地区。同样,df2
中并非所有关税都可用,因此我不介意将df1
中的单元格留空。
到目前为止,我处于这个阶段:
#Add new column
df1['tariff'] = 0;
for index, row in df1.iterrows():
for index, row2 in df2.iterrows():
if row['partner'] == row2['country']:
if row['commodity'] == row2['commodity']
#Dont know what to put here
如果我使用df1['tariff'].replace(row['tariff'],row2['tariff'],inplace=True);
,我将在所有关税列中填充9.9关税
df1的输出应如下所示:
| partner | trade_value | commodity | tariff |
|------------|-------------|-----------|--------|
| Afghanistan| 100 | 1 | 9.9 |
| Zambia | 110 | 2 | NaN |
| Germany | 120 | 2 | 8.8 |
| Afghanistan| 150 | 2 | 1.4 |
| USA | 1120 | 5 | 4.3 |
答案 0 :(得分:2)
merge
您可以简单地使用merge
来连接重叠列上的两个数据框:
pd.merge(left=df1, right=df2, how='left', left_on=['partner', 'commodity'],
right_on = ['country', 'commodity']).drop(['country'], axis = 1)
commodity partner trade_value tariff
0 1 Afghanistan 100 9.9
1 2 Zambia 110 NaN
2 2 Germany 120 8.8
3 2 Afghanistan 150 1.4
4 5 USA 1120 4.3