我有一个数据框,其中包含超过一百万个值,并且有一个特定的列,其中包含一些值和一些nan。有没有办法提取数据框的子集,该子集可以提取对应于nan的值?
例如:
我有这种格式的东西
+---+----+-----+
| A | B | C |
+---+----+-----+
| 1 | b1 | NaN |
| 2 | b2 | c2 |
| 3 | b3 | NaN |
| 4 | b4 | c4 |
| 5 | b5 | NaN |
+---+----+-----+
我想提取在C列中具有nan的数据:
+---+----+-----+
| A | B | C |
+---+----+-----+
| 1 | b1 | NaN |
| 3 | b3 | NaN |
| 5 | b5 | NaN |
+---+----+-----+
答案 0 :(得分:0)
df[np.isnan(df['C'])]
如果所有值均为np.number
,这将起作用df[df['C'].isnull()]
这将适用于所有数据类型。
答案 1 :(得分:0)
我认为您可以按NaN值选择这些行或使用''。
例如:
df.loc[df['column_name'] == some_value]
尝试关注
df.loc[df['column_name'] == '']
df.loc[df['column_name'] == NaN]