特征向量构建分类器以检测主观性

时间:2015-02-16 05:36:57

标签: nlp text-mining sentiment-analysis

我正在尝试构建一个分类器来检测主观性。我有标记主观和客观的文本文件。从这些数据中创建特征的概念我很少迷失。我找到了主观和客观标签的词典。我可以做的一件事是创建一个在各自的字典中出现单词的功能。也许主观和客观字典中出现的词数。之后,我打算使用朴素贝叶斯或SVM来开发模型

我的问题如下

  1. 我的方法是否正确?
  2. 我可以制作更多功能吗?如果可能的话,建议一些或指向我的论文或链接
  3. 我可以像chi -sq等做一些测试来识别字典中的有效单词吗?

1 个答案:

答案 0 :(得分:2)

你基本上是在正确的轨道上。在尝试其他任何事情之前,我会尝试使用您已有的功能应用分类器并查看它的工作情况。

实际上改善工作的最佳方法是谷歌主观性分类论文并阅读它们(有一个相当的number of them)。例如,this one列出了此任务的典型功能。

是的,Chi-squared可用于构建文本分类词典(其他常用方法是TD * IDF,逐点变异信息和LDA)

此外,最近新的基于神经网络的文本分类方法,如paragraph vectordynamic convolutional neural networks with k-max pooling,展示了情绪分析的最新结果,因此它们应该有利于主观性分类同样。