熊猫剪出一系列具有南价值的东西

时间:2018-10-31 10:12:02

标签: python pandas nan

我想将pandas cut功能应用于包含NaN的系列。理想的行为是将非NaN元素存储到桶中,并为NaN元素返回NaN。

import pandas as pd
numbers_with_nan = pd.Series([3,1,2,pd.NaT,3])
numbers_without_nan = numbers_with_nan.dropna()

对于没有NaN的系列,切割效果很好:

pd.cut(numbers_without_nan, bins=[1,2,3], include_lowest=True)
0      (2.0, 3.0]
1    (0.999, 2.0]
2    (0.999, 2.0]
4      (2.0, 3.0]

当我剪切包含NaN的序列时,元素3正确返回为NaN,但是最后一个元素分配了错误的bin:

pd.cut(numbers_with_nan, bins=[1,2,3], include_lowest=True)
0      (2.0, 3.0]
1    (0.999, 2.0]
2    (0.999, 2.0]
3             NaN
4    (0.999, 2.0]

如何获得以下输出?

0      (2.0, 3.0]
1    (0.999, 2.0]
2    (0.999, 2.0]
3             NaN
4      (2.0, 3.0]

1 个答案:

答案 0 :(得分:3)

这很奇怪。问题不在于pd.NaT,而是您的系列具有object dtype而不是常规数字系列(例如floatint

一个快速解决方案是通过pd.NaTnp.nan替换fillna。这会触发从objectfloat64 dtype的系列转换,也可能导致更好的性能。

s = pd.Series([3, 1, 2, pd.NaT, 3])

res = pd.cut(s.fillna(np.nan), bins=[1, 2, 3], include_lowest=True)

print(res)

0    (2, 3]
1    [1, 2]
2    [1, 2]
3       NaN
4    (2, 3]
dtype: category
Categories (2, object): [[1, 2] < (2, 3]]

更通用的解决方案是事先将其显式转换为数字:

s = pd.to_numeric(s, errors='coerce')