我有一个包含客户留言的数据集,其中一个示例正在关注 -
key message final category
1 i want customer care no i want to talk with ur team other
2 hi I 9986443603cjhh had qkuiv1uhqllljqvocally q illgi vq noclass
3 hai points not coming checking
等。数据集是一个巨大的文件,至少有20个最终类别类型。请建议使用适当的方法对数据进行分类,并将消息作为最终类别。我正在考虑使用消息字制作feature_vector并将其输入贝叶斯语它会很棒吗?或者我必须使用其他技术。
非常感谢。
答案 0 :(得分:0)
您可以考虑使用字嵌入。
您可以从here嵌入下载(在此链接中Glove
,您也可以使用word2vec
)。
这个想法是类似的词会有类似的向量。
将邮件中的每个单词转换为向量后,您可以平均所有向量(或平均使用TF-IDF
获得更好的结果)来获取邮件的向量表示。
当然,像qkuiv1uhqllljqvocally这样的单词不会出现在词汇表中。
要检查结果,您可以集群(使用20-means聚类,如果您有20个类)所有向量,以查看类似的消息聚集到同一组。