Question

我有一个数据框，其中包含超过一百万个值，并且有一个特定的列，其中包含一些值和一些nan。有没有办法提取数据框的子集，该子集可以提取对应于nan的值？

例如：

我有这种格式的东西

+---+----+-----+
| A | B  |  C  |
+---+----+-----+
| 1 | b1 | NaN |
| 2 | b2 | c2  |
| 3 | b3 | NaN |
| 4 | b4 | c4  |
| 5 | b5 | NaN |
+---+----+-----+

我想提取在C列中具有nan的数据：

+---+----+-----+
| A | B  |  C  |
+---+----+-----+
| 1 | b1 | NaN |
| 3 | b3 | NaN |
| 5 | b5 | NaN |
+---+----+-----+

Answer 1

df[np.isnan(df['C'])]

如果所有值均为np.number

，这将起作用

df[df['C'].isnull()]

这将适用于所有数据类型。

Answer 2

我认为您可以按NaN值选择这些行或使用''。

例如：

df.loc[df['column_name'] == some_value]

尝试关注

df.loc[df['column_name'] == '']
df.loc[df['column_name'] == NaN]

提取具有nan值的数据框

2 个答案: