我正在尝试构建一个分类器来检测主观性。我有标记主观和客观的文本文件。从这些数据中创建特征的概念我很少迷失。我找到了主观和客观标签的词典。我可以做的一件事是创建一个在各自的字典中出现单词的功能。也许主观和客观字典中出现的词数。之后,我打算使用朴素贝叶斯或SVM来开发模型
我的问题如下
答案 0 :(得分:2)
你基本上是在正确的轨道上。在尝试其他任何事情之前,我会尝试使用您已有的功能应用分类器并查看它的工作情况。
实际上改善工作的最佳方法是谷歌主观性分类论文并阅读它们(有一个相当的number of them)。例如,this one列出了此任务的典型功能。
是的,Chi-squared可用于构建文本分类词典(其他常用方法是TD * IDF,逐点变异信息和LDA)
此外,最近新的基于神经网络的文本分类方法,如paragraph vector和dynamic convolutional neural networks with k-max pooling,展示了情绪分析的最新结果,因此它们应该有利于主观性分类同样。