缺少值的Pandas DataFrame乘法

时间:2019-02-23 07:59:06

标签: python pandas dataframe

我有2个数据框

                 Value
Location Time          
Hawai    2000  1.764052
         2002  0.400157
Torino   2000  0.978738
         2002  2.240893
Paris    2000  1.867558
         2002 -0.977278
                       2000  2002
Country Unit Location            
US      USD  Hawai        2     8
IT      EUR  Torino       4    10
FR      EUR  Paris        6    12  

使用

创建
np.random.seed(0)
tuples = list(zip(*[['Hawai', 'Hawai', 'Torino', 'Torino',
                     'Paris', 'Paris'],
                      [2000, 2002, 2000, 2002, 2000,2002]]))

idx = pd.MultiIndex.from_tuples(tuples, names=['Location', 'Time'])

df = pd.DataFrame(np.random.randn(6, 1), index=idx, columns=['Value'])



df2 = pd.DataFrame({'Country': [ 'US', 'IT', 'FR'],
                'Unit': [ 'USD', 'EUR', 'EUR'],
                  'Location': [ 'Hawai', 'Torino', 'Paris'],
                  '2000': [2, 4,6],
                    '2002': [8,10,12]
                   })
df2.set_index(['Country','Unit','Location'],inplace=True)

我想将df2中的每一列与df1中的相应值相乘
这段代码效果很好

df2.columns=df2.columns.astype(int)
s=df.Value.unstack(fill_value=1)
df2 = df2.mul(s)

产生

              2000       2002
Country Unit Location                      
US      USD  Hawai      3.528105   3.201258
IT      EUR  Torino     3.914952  22.408932
FR      EUR  Paris     11.205348 -11.727335

现在我想处理df2缺少表示为'..'的值的情况,因此将数值相乘并跳过其他数值

    2000  2002
Country Unit Location           
US      USD  Hawai       2     8
IT      EUR  Torino     ..    10
FR      EUR  Paris       6    12  

运行上面的代码会给出错误TypeError:无法将序列乘以'float'类型的非整数
知道如何实现此结果吗?

2000       2002
    Country Unit Location                      
    US      USD  Hawai      3.528105   3.201258
    IT      EUR  Torino     ..  22.408932
    FR      EUR  Paris     11.205348 -11.727335

1 个答案:

答案 0 :(得分:2)

我认为这里更好的方法是使用缺失值代替to_numeric..的{​​{1}}和errors='coerce',因此除法效果非常好:

df2 = pd.DataFrame({'Country': [ 'US', 'IT', 'FR'],
                'Unit': [ 'USD', 'EUR', 'EUR'],
                  'Location': [ 'Hawai', 'Torino', 'Paris'],
                  '2000': [2, '..',6],
                    '2002': [8,10,12]
                   })
df2.set_index(['Country','Unit','Location'],inplace=True)

df2.columns=df2.columns.astype(int)
s= df.Value.unstack(fill_value=1)
df2 = df2.apply(lambda x: pd.to_numeric(x, errors='coerce')).mul(s)
print (df2)
                            2000       2002
Country Unit Location                      
US      USD  Hawai      3.528105   3.201258
IT      EUR  Torino          NaN  22.408932
FR      EUR  Paris     11.205348 -11.727335

如果只有非数字值是..,请使用replace

df2 = df2.replace('..', np.nan).mul(s)