使用LogReg通过标签数据预测IMDB多项(情感)得分

时间:2019-05-25 11:51:27

标签: python nlp logistic-regression sentiment-analysis

目标:根据评论的情绪预测IMDB评论的相关分数(分数为1-10,不仅是+和-)。受监督的。

我们拥有什么:具有Countvectorizer的Word of Bag模型。 N-gram在进行中(CountVectorizer中的简单条目),因此可以给“好”,“不好”,“不太好”等等赋予不同的分数。这就是建立词汇量的全部。我的合作伙伴实施了LinearSVC来消除这种情绪-可以很好地确定评论是正面还是负面,但不能给我们评分。

数据集: SAR14 Dataset-超过200k个带有分数标记的IMDB评论,用于培训和测试。

上下文:在大学中“选择自己的NLP项目”;花了3天的时间,还有3天的时间。

问题:我找不到成功解决此问题的可行方法(或有文件证明),而且我没有想法。如果没有其他问题,我将使用BoW模型/ Word2Vec和N-grams和predict_proba来估计分数(like this)。 SentiWordnet和其他人显然是aren't great,但我不太确定如何将NLTK的二进制情感转换成一定范围的分数(回归)。有this使用PyTorch,我正在努力调整它以适合我的需求。

非常感谢有关进行操作的建议。

0 个答案:

没有答案