如何用估算器对文本进行分类?

时间:2017-03-08 23:49:09

标签: python-3.x scikit-learn text-classification countvectorizer

我用这个训练了估算师:

def train_estimator(feature_list, expected_values, k=5):
    pipeline = Pipeline([('vect', CountVectorizer(input='filename', stop_words='english')),
                         ('clf', MultinomialNB())])

    parameters = {'vect__ngram_range':[(1, 1), (1, 2), (1, 3)],
                  'vect__min_df':[0.001, 0.01, 0.02, 0.05, 0.1],
                  'vect__max_df':[0.85, 0.90, 0.95, 0.99, 1.0],
                  'clf__alpha':[0.001, 0.01, 0.1, 0.2, 0.5, 1.0]}

    gs_clf = GridSearchCV(pipeline, parameters, n_jobs=6, cv=k, verbose=1, refit=True, scoring='roc_auc')
    gs_clf.fit(feature_list, expected_values)

    return gs_clf.best_estimator_

现在我需要使用此估算器对某些文本进行分类,但不清楚如何正确地对文本进行矢量化。

我需要对text进行向量化,然后使用向量调用estimator.predict()。问题是,这个向量必须与用于训练estimator的向量一致(单词foobar必须与用于训练模型的向量具有相同的索引)。从文档中不清楚如何以这种方式矢量化text

如何编写此predict()函数?

def predict(estimator, text):
    # Vectorize text and call estimator.predict()

修改

feature_listexpected_values的内容如下:

def fetch_training_set(doc_iterator):
    files, labels = list(), list()
    for row in doc_iterator:
        filename = 'somepath/%s.txt' % random()
        with open(filename, 'w', encoding='utf-8') as f:
            f.write(row['text'])

        files.append(filename)
        labels.append(row['label'])

    feature_list = np.array(files)
    expected_values = np.array(labels)

    return feature_list, expected_values

1 个答案:

答案 0 :(得分:0)

我认为添加额外的功能train_estimatorpredict会使事情变得复杂。

gs_clf = GridSearchCV(pipeline, parameters, n_jobs=6, cv=k, verbose=1, refit=True, scoring='roc_auc')
gs_clf.fit(feature_list, expected_values)
gs_clf.predict(your_data)

将完成工作(最后一行)。由于您重新安装(refit=True)您的管道,gs_clf将使用网格搜索找到的最佳参数进行重新调整。然后,gs_clf.predict将调用管道中每个成员的predict函数。