哪种机器学习技术应该用于消息分类

时间:2016-08-10 10:33:03

标签: machine-learning scikit-learn classification bayesian

我有一个包含客户留言的数据集,其中一个示例正在关注 -

key   message                                                  final category
1     i want customer care no i want to talk with ur team       other
2     hi I 9986443603cjhh had qkuiv1uhqllljqvocally q illgi vq  noclass
3     hai points not coming                                     checking

等。数据集是一个巨大的文件,至少有20个最终类别类型。请建议使用适当的方法对数据进行分类,并将消息作为最终类别。我正在考虑使用消息字制作feature_vector并将其输入贝叶斯语它会很棒吗?或者我必须使用其他技术。

非常感谢。

1 个答案:

答案 0 :(得分:0)

您可以考虑使用字嵌入。 您可以从here嵌入下载(在此链接中Glove,您也可以使用word2vec)。

这个想法是类似的词会有类似的向量。 将邮件中的每个单词转换为向量后,您可以平均所有向量(或平均使用TF-IDF获得更好的结果)来获取邮件的向量表示。 当然,像qkuiv1uhqllljqvocally这样的单词不会出现在词汇表中。 要检查结果,您可以集群(使用20-means聚类,如果您有20个类)所有向量,以查看类似的消息聚集到同一组。