我使用sklearn的FunctionTransformer预处理我的一些数据,这些数据是日期字符串,例如" 2015-01-01 11:09:15"。
我的自定义函数将字符串作为输入,但我发现FunctionTransformer无法处理字符串,因为它没有实现fit_transform的源代码。因此,呼叫被路由到父类:
57 def fit(self, X, y=None):
58 if self.validate:
---> 59 check_array(X, self.accept_sparse)
60 return self
check_array似乎只适用于数字ndarrays。当然,我可以在熊猫领域做所有事情,但我想知道在sklearn中是否有更好的方法来解决这个问题 - 尤其是。鉴于我将来可能会使用管道?
谢谢!
答案 0 :(得分:4)
好像validate
参数就像你要找的那样:
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html
这里有一个例子,将注释中提到的转换为float的字符串保留为有意义。我们假设您要将时区信息添加到日期字符串中:
import pandas as pd
def add_TZ(df):
df['date'] = df['date'].astype(str) + "Z"
data = { 'date' : ["2015-01-01 11:00:00", "2015-01-01 11:15:00", "2015-01-01 11:30:00"],
'value' : [4., 3., 2.]}
df = pd.DataFrame(data)
由于检查原因,这将失败:
ft = FunctionTransformer(func=add_TZ)
ft.fit_transform(df)
输出:
ValueError: could not convert string to float: '2015-01-01 11:30:00'
这有效:
ft = FunctionTransformer(func=add_TZ, validate=False)
ft.fit_transform(df)
输出:
date value
0 2015-01-01 11:00:00Z 4.0
1 2015-01-01 11:15:00Z 3.0
2 2015-01-01 11:30:00Z 2.0