我想基于第一组列中的值(具体地,第一列中的一列为空白),同时将多列的值替换为其他列中的对应值。以下是我正在尝试做的一个例子:
import pandas as pd
df = pd.DataFrame({'a1':['m', 'n', 'o', 'p'],
'a2':['q', 'r', 's', 't'],
'b1':['', '', 'a', '' ],
'b2':['', '', 'b', '']})
df
# a1 a2 b1 b2
# 0 m q
# 1 n r
# 2 o s a b
# 3 p t
我想将b1和b2中的''值替换为a1和a2中的相应值,其中b1为空白:
# a1 a2 b1 b2
# 0 m q m q
# 1 n r n r
# 2 o s a b
# 3 p t p t
这是我的思考过程(我对熊猫来说相对较新,所以我可能会在这里讲一个重度R口音):
missing = (df.b1 == '')
# First thought:
df[missing, ['b1', 'b2']] = df[missing, ['a1', 'a2']]
# TypeError: 'Series' objects are mutable, thus they cannot be hashed
# Fair enough
df[tuple(missing), ('b1', 'b2')] = df[tuple(missing), ('a1', 'a2')]
# KeyError: ((True, True, False, True), ('a1', 'a2'))
# Obviously I'm going about this wrong. Maybe I need to use indexing?
df[['b1', 'b2']].ix[missing,:]
# b1 b2
# 0
# 1
# 3
# That looks right
df[['b1', 'b2']][missing, :] = df[['a1', 'a2']].ix[missing, :]
# TypeError: 'Series' objects are mutable, thus they cannot be hashed
# Deja vu
df[['b1', 'b2']].ix[tuple(missing), :] = df[['a1', 'a2']].ix[tuple(missing), :]
# ValueError: could not convert string to float:
# Uhh...
我可以逐列进行:
df['b1'].ix[missing] = df['a1'].ix[missing]
df['b2'].ix[missing] = df['a2'].ix[missing]
...但我怀疑这是一种更惯用的方法。想法?
更新:为了澄清,我特别想知道是否可以同时更新所有列。例如,对Primer答案的假设修改(这不起作用并导致NaNs,虽然我不确定为什么):
df.loc[missing, ['b1', 'b2']] = f.loc[missing, ['a1', 'a2']]
# a1 a2 b1 b2
# 0 m q NaN NaN
# 1 n r NaN NaN
# 2 o s a b
# 3 p t NaN NaN
答案 0 :(得分:5)
怎么样
df[['b1', 'b2']] = df[['b1', 'b2']].where(df[['b1', 'b2']] != '', df[['a1', 'a2']].values)
返回
a1 a2 b1 b2
0 m q m q
1 n r n r
2 o s a b
3 p t p t
答案 1 :(得分:1)
你可以这样做:
mask1 = df.b1.str.len() == 0
mask2 = df.b2.str.len() == 0
df.loc[mask1, 'b1'] = df.loc[mask1, 'a1']
df.loc[mask2, 'b2'] = df.loc[mask2, 'a2']
print df
a1 a2 b1 b2
0 m q m q
1 n r n r
2 o s a b
3 p t p t
或者像这样的面具也可以起作用:
mask1 = df.b1 == ''
mask2 = df.b2 == ''
答案 2 :(得分:1)
怎么样:
missing = df.loc[:] == ""
shifted = df.copy().shift(2, axis=1)
df[missing] = shifted
换句话说,构造一个missing
布尔的单元格,其中缺少数据,并且原始数据的副本将所有列向右移动两个位置。然后将移位的数据分配给原始数据,但仅限于原始数据丢失的位置。
数据会像这样流动:
仅复制missing
中以绿色标记的单元格。
如果你想在一行中完成所有这一切,那么可行,如果你不清楚为什么要做各种操作:
df[df.loc[:] == ""] = df.copy().shift(2, axis=1)