我正在从csv文件中获取一列,并使用pandas将其中的数据输入到数组中。但是,许多单元格为空,并以“ nan”的形式保存在数组中。我想识别空单元格,以便跳过它们或将它们全部从阵列中删除。类似于以下的伪代码:

if df.row(column number) == nan

if df.row(column number) != nan
    do stuff


例如,要摆脱以下数据框中第3列中的df = df[df['column_to_check'].notnull()] 值:


import pandas as pd

import numpy as np

a = np.nan

Out[4]: True

Out[5]: False

如果要操作DataFrame中的所有(或某些)NaN值,则在处理表格数据时,处理丢失的数据是一个大主题,并且有许多方法可以做到这一点。我建议this book中的第7章。这里是它的内容:

enter image description here


>>> import pandas as pd

>>> df

     0    1    2    3    4
0  0.0  1.0  NaN  1.0  1.0
1  1.0  NaN  1.0  1.0  1.0
2  NaN  NaN  NaN  NaN  NaN
3  NaN  1.0  1.0  NaN  NaN
4  1.0  NaN  NaN  1.0  1.0

>>> df.dropna(axis=0, subset=['3'])

     0    1    2    3    4
0  0.0  1.0  NaN  1.0  1.0
1  1.0  NaN  1.0  1.0  1.0
4  1.0  NaN  NaN  1.0  1.0
  • axis=0表示排除了包含NaN的行。
  • subset=['3']表示仅考虑列“ 3”。
