我有大约6000个文本的语料库,其中包含来自社交网络(FB,推特)的评论,来自一般和地区新闻和杂志的新闻内容等。我已经浏览了这些文本中的前300个并标记了这300个文本中的每一个'满足客户投诉或不投诉的内容。
我想知道如何准确地提取这些投诉和非投诉文本的特征,而不是天真的方式。我的目标是使用SVM或其他分类算法/库(如Liblinear)来最准确地将其余的这些文本分类为对300个文本的当前训练集的投诉或不投诉。这个程序是否类似于情绪分析?如果没有,我应该从哪里开始?
答案 0 :(得分:0)
我想你会发现那些词袋并不那么幼稚。它实际上是一种非常有效的方式来表示您的数据以将其提供给SVM。如果那不能给你足够的准确性,你可以在你的特征向量中包含双字母组,即单词对,而不仅仅是单词。