值Error():找到样本数量不一致的输入变量:[10540,42158]

时间:2018-12-04 04:59:52

标签: python-3.x machine-learning scikit-learn data-science naivebayes

我正在等待文本分类数据。我在文本数据的训练数据上应用了countVectorize和Tfidf [单词级别,ngram级别,字符级别]的地方。 应用tf-idf技术后,我在

中获得了X_train和Y_train

“ scipy.sparse.csr.csr_matrix类” 形状格式

  1. X_trainc =(42158,10261)
  2. train_y =(42158,)

但是当应用于朴素贝叶斯模型进行预测

def train_model(classifier, feature_vector_train, label, feature_vector_valid, is_neural_net=False):
    # fit the training dataset on the classifier
    classifier.fit(feature_vector_train, label)

    # predict the labels on validation dataset
    predictions = classifier.predict(feature_vector_valid)


    return metrics.accuracy_score(predictions, train_y)


accuracy = train_model(naive_bayes.MultinomialNB(), X_trainc, train_y, X_testc)
print ("NB, Count Vectors: ", accuracy)

我收到如下错误消息。

  

ValueError跟踪(最近的呼叫   最后)

     

中的

≪ipython-input-19-140f2a5e54ee>      

1#计数向量上的朴素贝叶斯   ----> 2个精度= train_model(naive_bayes.MultinomialNB(),x_train_tf,train_y,x_test_tf)

     

打印3张(“ NB,计数向量:”,准确性)

     

ValueError:找到数量不一致的输入变量   样本:[10540,42158]

请帮助我该如何解决。预先感谢。

0 个答案:

没有答案