Scikit:如何解决这个用例

时间:2015-05-26 05:06:27

标签: python machine-learning scikit-learn

我是scyrit的新手,并且有一个我试图通过scikit python库解决的用例。

我有这样的CSV文件:

LabeluserIdmessageuser_likeuser_dislike

1,1,“这是好消息”,4,5

0,1,“这是错误信息”,3,4

1,2,“这是好消息”,4,5

0,1,“这又糟糕了”,6,7

如何从上述数据训练分类器MultinomialNB。 我的挑战是它包含文本数据(消息)和数字数据。

我想预测this is new message发布的邮件“userId 1”是否为垃圾邮件(0,1)..

所以? , 1 , "this is new message" , 3 4

谢谢

1 个答案:

答案 0 :(得分:1)

一个简单而有效的想法是为文本和数字数据训练单独的分类器。确保你随时正常化。

现在,当你有两个不同的分类器时,你可以结合他们的结果来预测它是否是垃圾邮件。查看http://scikit-learn.org/stable/modules/ensemble.html

为了进一步改进它,您可以尝试使用每个分类器的内部概率分数,将它们用作特征来训练另一个分类器以进行最终预测。这称为堆叠。