成对计算DataFrame中的元素

时间:2015-01-10 18:55:23

标签: python pandas dataframe

我有一个类似于以下结构的数据框(但在实际情况下有更多的行和列)。

In [2]: Ex   # The example DataFrame
Out[2]: 
       NameBef  v1B  v2B   v3B   v4B    NameAft  v1A  v2A   v3A   v4A
Id                                                                   
422   firstBef  133  145   534   745   FirstAft  212  543  2342  4563
862  secondBef  234  434   345  3453  SecondAft  643  493  3433   234
935   thirdBef  232  343  6454   463   thirdAft  423  753   754   743

对于每一行,我想从上面计算每个vXB和vXA值的商(Xs是变量),最后得到像这样的DataFrame

          v1Q       v2Q       v3Q       v4Q
Id                                         
422  1.593985  3.744828  4.385768  6.124832
862  2.747863  1.135945  9.950725  0.067767
935  1.823276  2.195335  0.116827  1.604752

其中每个元素是原始数据框的相应元素的商。

我无法弄清楚如何方便地做到这一点。

为方便起见,如果不要求只提供“之前”和“之后”值的第一列和最后一列的名称,即'v1B','v4B'和'v1A', 'v4A'(即不是每一列)。

以下是我的想法。

In [3]: C=Ex.columns
In [4]: C1B=C.get_loc('v1B')
In [5]: C2B=C.get_loc('v4B')
In [6]: C1A=C.get_loc('v1A')
In [7]: C2A=C.get_loc('v4A')
In [8]: FB=Ex.ix[:,C1B:C2B+1]
In [9]: FA=Ex.ix[:,C1A:C2A+1]

In [10]: FB           # The FB and FA frames have this structure
Out[10]: 
     v1B  v2B   v3B   v4B
Id                       
422  133  145   534   745
862  234  434   345  3453
935  232  343  6454   463

[3 rows x 4 columns]

然后最终生成所需的DataFrame。这是通过对DataFrame.values生成的numpy数组进行计算来完成的。

我从这个question/answer得到的这个方法:

In [12]: DataFrame((FA.values*1.0) / FB.values,columns=['v1Q','v2Q','v3Q','v4Q'],index=Ex.index)
Out[12]: 
          v1Q       v2Q       v3Q       v4Q
Id                                         
422  1.593985  3.744828  4.385768  6.124832
862  2.747863  1.135945  9.950725  0.067767
935  1.823276  2.195335  0.116827  1.604752

[3 rows x 4 columns]

我错过了什么吗?我希望通过对原始DataFrame进行一些操作,我可以通过更直接的方式实现这一点。

是否没有操作直接在DataFrame上进行元素计算而不是通过numpy数组?

1 个答案:

答案 0 :(得分:1)

您始终可以使用df.filter来选择相关的列名称。它可以接受正则表达式,因此您可以使用以下内容指定after / before列:

>>> df.filter(regex=r'^v.A$').values / df.filter(regex=r'^v.B$').values
array([[ 1.59398496,  3.74482759,  4.38576779,  6.12483221],
       [ 2.74786325,  1.1359447 ,  9.95072464,  0.06776716],
       [ 1.82327586,  2.19533528,  0.11682677,  1.60475162]])

关于算术运算,你没有遗漏任何东西。这里必须使用Numpy数组(.values),否则Pandas会计算两个DataFrame中常见索引标签的值。如果缺少索引,则计算结果为NaN。 Numpy数组没有标记索引,因此元素操作成功。