我将文本分类用于方言检测,它显示出许多误报和误报。
第一个问题:我想看看哪些文本分类错误,因此我可以深入了解如何改进模型。
第二个问题:减少误报和误报的过程是在收集数据时吗?还是在培训过程中?因为机器学习有两个部分。首先是培训前部分,在这里您可以收集数据并对其进行预处理,其次是培训部分。所以我想知道我将重点放在提高模型准确性上的地方。
我的模型是带有countVectorizer的朴素贝叶斯。
这是我的代码:
from sklearn.pipeline import Pipeline
text_clf = Pipeline([
('vect', CountVectorizer()),
('clf', MultinomialNB())])
text_clf.fit(X_train, y_train)
pred=text_clf.predict(data_test['tweets'])
accuracy_score(data_test['dialect'],pred)
accuracy score : 0.68
confusion_matrix(data_test['dialect'],pred)
array([[87, 2, 12, 0],
[ 4, 42, 56, 3],
[ 7, 11, 78, 0],
[ 0, 0, 0, 0]], dtype=int64)