我是scyrit的新手,并且有一个我试图通过scikit python库解决的用例。
我有这样的CSV文件:
Label
,userId
,message
,user_like
,user_dislike
1,1,“这是好消息”,4,5
0,1,“这是错误信息”,3,4
1,2,“这是好消息”,4,5
0,1,“这又糟糕了”,6,7
如何从上述数据训练分类器MultinomialNB。 我的挑战是它包含文本数据(消息)和数字数据。
我想预测this is new message
发布的邮件“userId 1
”是否为垃圾邮件(0,1)..
所以? , 1 , "this is new message" , 3 4
谢谢
答案 0 :(得分:1)
一个简单而有效的想法是为文本和数字数据训练单独的分类器。确保你随时正常化。
现在,当你有两个不同的分类器时,你可以结合他们的结果来预测它是否是垃圾邮件。查看http://scikit-learn.org/stable/modules/ensemble.html
为了进一步改进它,您可以尝试使用每个分类器的内部概率分数,将它们用作特征来训练另一个分类器以进行最终预测。这称为堆叠。