Python Pandas:从另一个数据框更新数据框值

时间:2018-08-27 10:40:34

标签: python pandas dataframe

我有这两个数据框:(更新:我在stuff上添加了df1列以指定两个数据框具有不同的架构)

df1 = pd.DataFrame({'id': ['1','2','3'], 
                    'val': [0, 0, 0], 
                    'stuff': ['foo', 'bar', 'spam']})
df2 = pd.DataFrame({'id': ['2','3'], 'val': [10, 20]})

print(df1)
  id  val stuff
0  1    0   foo
1  2    0   bar
2  3    0  spam

print(df2)
  id  val
0  2   10
1  3   20

我想使用df1列中的val df2列中的值来更新val id列中的值。在df1上进行转换后所需的结果:

print(df1)
  id  val stuff
0  1    0   foo
1  2   10   bar
2  3   20  spam

我可以使用联接(merge),但是随后我将需要更多步骤才能达到预期的结果(将列从float转换为int,删除列等)。 (顺便说一句,如果您对联接有一个简单而优雅的方式,我也很感兴趣)。
我正在尝试使用切片方法,但不知道如何做。示例:

>>> df1.loc[df1['id'].isin(df2['id']), 'val'] = df2['val']

给予:

print(df1)
  id   val stuff
0  1   0.0   foo
1  2  20.0   bar
2  3   NaN  spam

更新:还有一个约束:不要修改原始的df1索引。

3 个答案:

答案 0 :(得分:1)

您可以使用concatdrop duplicates

df = pd.concat([df1,df2]).set_index('id').drop_duplicates().reset_index()

    id  val
0   1   0
1   2   10
2   3   20

如果您不想修改原始索引,则可以执行类似的操作。

df1 = pd.DataFrame({'id': ['1','2','3'], 'val': [0, 0, 0] ,
                       'stuff': ['foo', 'bar', 'spam']})
df2 = pd.DataFrame({'id': ['2','3'], 'val': [10, 20] })

df1.set_index('id', inplace=True)
df1.update(df2.set_index('id'))
df1.reset_index(inplace=True)
# df1.val = df1.val.astype(int) # convert to int

print(df1)
   id   val    stuff
0   1   0       foo
1   2   10      bar
2   3   20      spam

答案 1 :(得分:1)

您也可以执行map

In [88]: df1['id'].map(df2.set_index('id')['val']).fillna(df1['val'])
Out[88]:
0     0.0
1    10.0
2    20.0
Name: id, dtype: float64

In [89]: df1['val'] = df1['id'].map(df2.set_index('id')['val']).fillna(df1['val'])

In [90]: df1
Out[90]:
  id   val
0  1   0.0
1  2  10.0
2  3  20.0

答案 2 :(得分:1)

我找到了使用merge的解决方案:

df1 = df1.merge(df2, how='left', on='id')
df1['val'] = np.where(df1['val_y'].isnull(), df1['val_x'], df1['val_y'])
# recast to int
df1['val'] = df1['val'].astype(int)
# remove extra columns
df1.drop(['val_x', 'val_y'], axis=1, inplace=True)

print(df1)
  id stuff  val
0  1   foo    0
1  2   bar   10
2  3  spam   20