我在数据集中有许多变量,a)稀疏和b)唯一(主要是......)。像这样:
Foo
NaN
NaN
Bar
NaN
NaN
NaN
Baz
虽然这些变量的实际值在某些情况下很有意思,但我经常发现自己只是用Null / Not Null的True / False替换它们。
我想知道这是否作为scikit-learn的编码器存在 - 如果不存在,是否有人知道如何实现它?
答案 0 :(得分:1)
以下适用于我:
class NullNotNullTransformer(BaseEstimator, TransformerMixin):
"""
Transforms data according to null/not-null scheme.
"""
def fit(self, X):
return self
def transform(self, X):
return pd.isnull(X)