给scikit-learn分类器自定义训练数据?

时间:2018-11-21 20:16:59

标签: python scikit-learn training-data

我整天都在工作(苦苦挣扎)。阅读了文档以及其他许多教程之后,由于我的经验不足,我不知道如何将自己的数据与MultinomialNB分类器一起使用?

这是主要教程中的代码:

from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB

categories = ['alt.atheism', 'soc.religion.christian',
              'comp.graphics', 'sci.med']

text_clf = Pipeline([('vect', CountVectorizer()),
                     ('tfidf', TfidfTransformer()),
                     ('clf', MultinomialNB()),
])
twenty_train = fetch_20newsgroups(subset='train',
    categories=categories, shuffle=True, random_state=42)
text_clf.fit(twenty_train.data, twenty_train.target)  

docs_test = ['Graphics is love', 'the brain is part of the body']

predicted = text_clf.predict(docs_test)

for doc, category in zip(docs_test, predicted):
    print('%r => %s' % (doc, twenty_train.target_names[category]))

显然,它可以工作。但是,如何用我自己的数据(存储在python字典等中)替换fetch_20newsgroups?并且下面的训练数据中的每一项都被归为一类,这是如何实现的?

我知道这不是一个好问题,但是在这个需要的时候,我只是想了解它的工作原理。谢谢

1 个答案:

答案 0 :(得分:1)

几乎所有sklearn fit方法都将训练数据列表和标签列表作为输入。在您的情况下,训练数据列表将是字符串列表(您必须在其上训练模型的文本)。像['this is my first training sample', 'this is second string', 'and this is third', ...],以及另一个标签列表,例如['label1', 'label2', 'label1', ...]

然后将这些列表传递给fit方法:

text_clf.fit(list_of_training_datas, list_of_labels)

predict方法将保持不变,因为它还将获取您要测试的样本列表,并将返回包含每个测试样本的预测标签的列表。