如何将文本数据适合NaiveBayes分类器

时间:2019-01-24 17:37:33

标签: python pandas scikit-learn naivebayes sklearn-pandas

我正在尝试使用scikit学习库的NaiveBayes分类器基于一些二进制值变量对文本进行分类

X_train-训练数据

y_train-培训标签

两者均为“系列”类型

NB_classifier = naive_bayes.MultinomialNB(alpha = 0.1)
NB_classifier.fit(X_train, y_train)

然后我收到一个错误消息,说分类器不接受字符串值

  

无法将字符串转换为浮点数:

在此论坛上提到类似问题时,我了解到我们应该使用 LabelEncoder 对字符串进行编码 所以我做了以下

le = preprocessing.LabelEncoder()
le.fit(X_train)

NB_classifier = naive_bayes.MultinomialNB(alpha = 0.1)

NB_classifier.fit(le.transform(X_train), y_train)

然后我遇到了以下错误

  

找到输入样本数量不一致的输入变量:...

我已经尝试将X_trainy_train重塑为矩阵

任何帮助将不胜感激

0 个答案:

没有答案