在pandas数据帧

时间:2015-11-10 22:55:16

标签: python pandas machine-learning

我尝试为包含NaN值的每一行检索相应列的所有索引。

d=[[11.4,1.3,2.0, NaN],[11.4,1.3,NaN, NaN],[11.4,1.3,2.8, 0.7],[NaN,NaN,2.8, 0.7]]
df = pd.DataFrame(data=d, columns=['A','B','C','D'])
print df

      A    B    C    D
0  11.4  1.3  2.0  NaN
1  11.4  1.3  NaN  NaN
2  11.4  1.3  2.8  0.7
3  NaN   NaN  2.8  0.7

我已经完成了以下工作:

  • 为每行添加一个NaN计数的列
  • 获取每行包含NaN值的索引

我想要的(理想情况下,列的名称)是这样的列表:

[ ['D'],['C','D'],['A','B'] ]

希望我能找到一种方法,而不是为每一行做每行测试

if df.ix[i][column] == NaN:

我正在寻找一种能够处理庞大数据集的熊猫方式。

提前致谢。

4 个答案:

答案 0 :(得分:4)

使用scipy坐标格式稀疏矩阵检索空值的坐标应该是高效的:

import scipy.sparse as sp

x,y = sp.coo_matrix(df.isnull()).nonzero()
print(list(zip(x,y)))

[(0, 3), (1, 2), (1, 3), (3, 0), (3, 1)]

请注意,我正在调用nonzero方法,以便只输出基础稀疏矩阵中非零项的坐标,因为我并不关心实际值{all} { {1}}。

答案 1 :(得分:2)

另一种方法是,提取NaN:

的行
In [11]: df_null = df.isnull().unstack()

In [12]: t = df_null[df_null]

In [13]: t
Out[13]:
A  3    True
B  3    True
C  1    True
D  0    True
   1    True
dtype: bool

这可以帮到你,也可能就足够了 虽然使用该系列可能更容易:

In [14]: s = pd.Series(t2.index.get_level_values(1), t2.index.get_level_values(0))

In [15]: s
Out[15]:
0    D
1    C
1    D
3    A
3    B
dtype: object

e.g。如果你想要这些清单(虽然我认为你不需要它们)

In [16]: s.groupby(level=0).apply(list)
Out[16]:
0       [D]
1    [C, D]
3    [A, B]
dtype: object

答案 2 :(得分:1)

您可以遍历数据框中的每一行,创建一个空值掩码,并输出它们的索引(即数据框中的列)。

lst = []
for _, row in df.iterrows():
    mask = row.isnull()
    lst += [row[mask].index.tolist()]

>>> lst
[['D'], ['C', 'D'], [], ['A', 'B']]

答案 3 :(得分:0)

另一种更简单的方法是:

>>>df.isnull().any(axis=1)
0     True
1     True
2    False
3     True
dtype: bool

到子集:

>>> bool_idx = df.isnull().any(axis=1)
>>> df[bool_idx]
    A         B     C    D
0   11.4    1.3     2.0  NaN
1   11.4    1.3     NaN  NaN
3   NaN      NaN    2.8  0.7

获取整数索引:

>>> df[bool_idx].index
Int64Index([0, 1, 3], dtype='int64')