Question

我正在尝试使用Pipeline中的GridSearch中的多个要素列。所以我传递了两个我想要做TfidfVectorizer的列，但是在运行GridSearch时我遇到了麻烦。

Xs = training_data.loc[:,['text','path_contents']]
y = training_data['class_recoded'].astype('int32')

for col in Xs:
    print Xs[col].shape

print Xs.shape
print y.shape

# (2464L,)
# (2464L,)
# (2464, 2)
# (2464L,)

from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import GridSearchCV

pipeline = Pipeline([('vectorizer', TfidfVectorizer(encoding="cp1252", stop_words="english")), 
                     ('nb', MultinomialNB())])

parameters = {
    'vectorizer__max_df': (0.48, 0.5, 0.52,),
    'vectorizer__max_features': (None, 8500, 9000, 9500),
    'vectorizer__ngram_range': ((1, 3), (1, 4), (1, 5)),
    'vectorizer__use_idf': (False, True)
}

if __name__ == "__main__":
    grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1, verbose=2)
    grid_search.fit(Xs, y) # <- error thrown here

    print("Best score: {0}".format(grid_search.best_score_))  
    print("Best parameters set:")  
    best_parameters = grid_search.best_estimator_.get_params()  
    for param_name in sorted(list(parameters.keys())):  
        print("\t{0}: {1}".format(param_name, best_parameters[param_name]))

错误：ValueError：找到样本数不一致的输入变量：[2,1642]

我读了类似的错误here和here，我尝试了两个问题＆＃39;建议但无济于事。

我尝试以不同的方式选择我的数据：

features = ['text', 'path_contents']
Xs = training_data[features]

我尝试使用.values代替建议here，如下所示：

grid_search.fit(Xs.values, y.values)

但是这给了我以下错误：

AttributeError：＆＃39; numpy.ndarray＆＃39;对象没有属性＆＃39; lower＆＃39;

那是怎么回事？我不确定如何继续这样做。

Answer 1

TfidfVectorizer期望输入字符串列表。这解释了“AttributeError：'numpy.ndarray'对象没有属性'lower'”，因为你输入了2d-array，这意味着一个数组列表。

所以你有两个选择，要么预先将2列连成1列（在pandas中），要么你想保留2列，你可以在管道中使用特征联合（http://scikit-learn.org/stable/modules/pipeline.html#feature-union）

关于第一个例外，我猜它是由pandas和sklearn之间的通信引起的。但是，由于代码中存在上述错误，您无法确定。

重塑pandas.Df在GridSearch

1 个答案: