Question

我有一个sklearn管道，可以对异构数据类型（布尔，分类，数字，文本）执行特征工程，并且想尝试使用神经网络作为我的学习算法来拟合模型。我在输入数据的形状方面遇到了一些问题。

我想知道我想做的事是否可行，或者是否应该尝试其他方法？

我尝试了几种不同的方法，但是收到了以下错误消息：

Error when checking input: expected dense_22_input to have shape (11,) but got array with shape (30513,) =>我有11个输入功能...因此我尝试将X和y转换为数组，现在出现此错误
ValueError: Specifying the columns using strings is only supported for pandas DataFrames =>我认为这是因为我在其中指定列名的ColumnTransformer()

print(X_train_OS.shape)
print(y_train_OS.shape)

(22354, 11)
(22354,)

from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.utils import to_categorical # OHE

X_train_predictors = df_train_OS.drop("label", axis=1)
X_train_predictors = X_train_predictors.values
y_train_target = to_categorical(df_train_OS["label"])

y_test_predictors = test_set.drop("label", axis=1)
y_test_predictors = y_test_predictors.values
y_test_target = to_categorical(test_set["label"])

print(X_train_predictors.shape)
print(y_train_target.shape)

(22354, 11)
(22354, 2)

def keras_classifier_wrapper():
    clf = Sequential()
    clf.add(Dense(32, input_dim=11, activation='relu'))
    clf.add(Dense(2, activation='softmax'))
    clf.compile(loss='categorical_crossentropy', optimizer='adam', metrics=["accuracy"])
    return clf

TOKENS_ALPHANUMERIC_HYPHEN = "[A-Za-z0-9\-]+(?=\\s+)"

boolTransformer = Pipeline(steps=[
    ('bool', PandasDataFrameSelector(BOOL_FEATURES))])

catTransformer = Pipeline(steps=[
    ('cat_imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('cat_ohe', OneHotEncoder(handle_unknown='ignore'))])

numTransformer = Pipeline(steps=[
    ('num_imputer', SimpleImputer(strategy='constant', fill_value=0)),
    ('num_scaler', StandardScaler())])

textTransformer_0 = Pipeline(steps=[
    ('text_bow', CountVectorizer(lowercase=True,\
                                 token_pattern=TOKENS_ALPHANUMERIC_HYPHEN,\
                                 stop_words=stopwords))])

textTransformer_1 = Pipeline(steps=[
    ('text_bow', CountVectorizer(lowercase=True,\
                                 token_pattern=TOKENS_ALPHANUMERIC_HYPHEN,\
                                 stop_words=stopwords))])

FE = ColumnTransformer(
    transformers=[
        ('bool', boolTransformer, BOOL_FEATURES),
        ('cat', catTransformer, CAT_FEATURES),
        ('num', numTransformer, NUM_FEATURES),
        ('text0', textTransformer_0, TEXT_FEATURES[0]),
        ('text1', textTransformer_1, TEXT_FEATURES[1])])

clf = KerasClassifier(keras_classifier_wrapper, epochs=100, batch_size=500, verbose=0)

PL = Pipeline(steps=[('feature_engineer', FE),
                     ('keras_clf', clf)])

PL.fit(X_train_predictors, y_train_target)
#PL.fit(X_train_OS, y_train_OS)

我想我理解这里的问题，但是不确定如何解决。如果无法将sklearn ColumnTransformer + Pipeline集成到Keras模型中，Keras是否有一种很好的方法来处理特征工程师的固定数据类型？谢谢！

Answer 1

看起来您正在通过各种列转换器传递11列原始数据，并且维数正在扩展到30,513（在对文本进行矢量化计数，一种热编码等之后）。您的神经网络架构设置为仅接受11个输入特征，但正在传递您（现在已转换）的30,513个特征，这就是错误1的解释。

因此，您需要修改神经网络的input_dim，以匹配在特征提取管道中创建的特征数量。

您可以做的一件事是在它们之间添加一个中间步骤，例如使用SelectKBest，并将其设置为大约20,000，以便您确切地知道最终将有多少个功能传递给分类器。

这是Google机器学习网站-link - look at the flow chart上的一个很好的指南和流程图-在这里您可以看到他们在训练模型之前正在“选择最重要的k个功能”步骤。

因此，请尝试将代码的这些部分更新为：

def keras_classifier_wrapper():
    clf = Sequential()
    clf.add(Dense(32, input_dim=20000, activation='relu'))
    clf.add(Dense(2, activation='softmax'))
    clf.compile(loss='categorical_crossentropy', optimizer='adam', metrics=["accuracy"])
    return clf

和

from sklearn.feature_selection import SelectKBest
select_best_features = SelectKBest(k=20000)

PL = Pipeline(steps=[('feature_engineer', FE),
                     ('select_k_best', select_best_features),
                     ('keras_clf', clf)])

Answer 2

我认为使用Sklearn Pipelines和Keras sklearnWrappers是处理问题的标准方法，ColumnDataTransformer允许您以不同方式管理每个功能（无论是布尔型，数字型还是数字型）绝对的）

要调试代码，我建议对管道的每个步骤都进行单元测试，尤其是 textTransformer_0和textTransformer_1

例如

textTransformer_0.fit_transform(X_train_predictors).shape # shape[1]
textTransformer_1.fit_transform(X_train_predictors).shape # shape[1]

因此，一对一的热编码器，将了解最终的特征尺寸。

因为Sklearn Pipelines的标准是处理2D np.ndarray，因此CountVectorizer将根据数据创建一堆列，并且此值必须在input_dim层中作为keras.Dense引入

将Keras集成到SKLearn Pipeline？

2 个答案: