如何显示哪些数据分类错误?

时间:2019-05-16 07:38:44

标签: scikit-learn text-classification naivebayes confusion-matrix countvectorizer

我将文本分类用于方言检测,它显示出许多误报和误报。

第一个问题:我想看看哪些文本分类错误,因此我可以深入了解如何改进模型。

第二个问题:减少误报和误报的过程是在收集数据时吗?还是在培训过程中?因为机器学习有两个部分。首先是培训前部分,在这里您可以收集数据并对其进行预处理,其次是培训部分。所以我想知道我将重点放在提高模型准确性上的地方。

我的模型是带有countVectorizer的朴素贝叶斯。

这是我的代码:

from sklearn.pipeline import Pipeline
text_clf = Pipeline([
    ('vect', CountVectorizer()),
    ('clf', MultinomialNB())])

text_clf.fit(X_train, y_train)

pred=text_clf.predict(data_test['tweets'])
accuracy_score(data_test['dialect'],pred)

accuracy score : 0.68

confusion_matrix(data_test['dialect'],pred)

array([[87,  2, 12,  0],
       [ 4, 42, 56,  3],
       [ 7, 11, 78,  0],
       [ 0,  0,  0,  0]], dtype=int64)

0 个答案:

没有答案