应用错误收集

时间：2017-04-26 03:07:19

标签： python nlp classification feature-extraction sentiment-analysis

我有大约6000个文本的语料库，其中包含来自社交网络（FB，推特）的评论，来自一般和地区新闻和杂志的新闻内容等。我已经浏览了这些文本中的前300个并标记了这300个文本中的每一个'满足客户投诉或不投诉的内容。

我想知道如何准确地提取这些投诉和非投诉文本的特征，而不是天真的方式。我的目标是使用SVM或其他分类算法/库（如Liblinear）来最准确地将其余的这些文本分类为对300个文本的当前训练集的投诉或不投诉。这个程序是否类似于情绪分析？如果没有，我应该从哪里开始？

答案 0 :(得分：0)

我想你会发现那些词袋并不那么幼稚。它实际上是一种非常有效的方式来表示您的数据以将其提供给SVM。如果那不能给你足够的准确性，你可以在你的特征向量中包含双字母组，即单词对，而不仅仅是单词。