Pandas boolean为同一命令切片不同的结果

时间:2018-04-19 13:31:52

标签: python python-3.x pandas

为什么示例1回馈NaN,而示例2没有?

示例1:

data=DataFrame(np.arange(0,16).reshape(4,4),
               index=[list('abcd')],
               columns=[list('retz')])
data[data['t'] > 5]

    r   e     t   z
a NaN NaN   NaN NaN
b NaN NaN   6.0 NaN
c NaN NaN  10.0 NaN
d NaN NaN  14.0 NaN

例2:

data2 = DataFrame(np.arange(16).reshape((4, 4)),
                     index=['Ohio', 'Colorado', 'Utah', 'New York'],
                     columns=['one', 'two', 'three', 'four'])
data2[data2['three'] > 5]

          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

1 个答案:

答案 0 :(得分:3)

您的第一个数据框有一个多索引

data.axes
> [MultiIndex(levels=[['a', 'b', 'c', 'd']],
              labels=[[0, 1, 2, 3]]), MultiIndex(levels=[['e', 'r', 't', 'z']],
              labels=[[1, 0, 2, 3]])]

而你的第二个没有:

data2.axes
> [Index(['Ohio', 'Colorado', 'Utah', 'New York'], dtype='object'),
   Index(['one', 'two', 'three', 'four'], dtype='object')]

这是因为您已将list('retz')包裹在另一个列表中,因此它被解释为[['e', 'r', 't', 'z']]。如果你想只有一个索引,你就可以摆脱括号。

data=DataFrame(np.arange(0,16).reshape(4,4),
               index=list('abcd'),
               columns=list('retz'))
data[data['t'] > 5]
>     r   e   t   z
  b   4   5   6   7
  c   8   9  10  11
  d  12  13  14  15