我正在等待文本分类数据。我在文本数据的训练数据上应用了countVectorize和Tfidf [单词级别,ngram级别,字符级别]的地方。 应用tf-idf技术后,我在
中获得了X_train和Y_train“ scipy.sparse.csr.csr_matrix类” 形状格式
但是当应用于朴素贝叶斯模型进行预测
def train_model(classifier, feature_vector_train, label, feature_vector_valid, is_neural_net=False):
# fit the training dataset on the classifier
classifier.fit(feature_vector_train, label)
# predict the labels on validation dataset
predictions = classifier.predict(feature_vector_valid)
return metrics.accuracy_score(predictions, train_y)
accuracy = train_model(naive_bayes.MultinomialNB(), X_trainc, train_y, X_testc)
print ("NB, Count Vectors: ", accuracy)
我收到如下错误消息。
ValueError跟踪(最近的呼叫 最后)
中的≪ipython-input-19-140f2a5e54ee>
1#计数向量上的朴素贝叶斯 ----> 2个精度= train_model(naive_bayes.MultinomialNB(),x_train_tf,train_y,x_test_tf)
打印3张(“ NB,计数向量:”,准确性)
ValueError:找到数量不一致的输入变量 样本:[10540,42158]
请帮助我该如何解决。预先感谢。