python - 使用LogReg通过标签数据预测IMDB多项（情感）得分

目标：根据评论的情绪预测IMDB评论的相关分数（分数为1-10，不仅是+和-）。受监督的。

我们拥有什么：具有Countvectorizer的Word of Bag模型。 N-gram在进行中（CountVectorizer中的简单条目），因此可以给“好”，“不好”，“不太好”等等赋予不同的分数。这就是建立词汇量的全部。我的合作伙伴实施了LinearSVC来消除这种情绪-可以很好地确定评论是正面还是负面，但不能给我们评分。

数据集： SAR14 Dataset-超过200k个带有分数标记的IMDB评论，用于培训和测试。

上下文：在大学中“选择自己的NLP项目”；花了3天的时间，还有3天的时间。

问题：我找不到成功解决此问题的可行方法（或有文件证明），而且我没有想法。如果没有其他问题，我将使用BoW模型/ Word2Vec和N-grams和predict_proba来估计分数(like this)。 SentiWordnet和其他人显然是aren't great，但我不太确定如何将NLTK的二进制情感转换成一定范围的分数（回归）。有this使用PyTorch，我正在努力调整它以适合我的需求。

非常感谢有关进行操作的建议。

使用LogReg通过标签数据预测IMDB多项（情感）得分

0 个答案: