情绪分析分数

时间:2020-05-31 23:49:31

标签: python nltk sentiment-analysis text-classification

我需要研究以下字符串的观点:

s_1= "The Icelandic survey of foreign travellers 1991-1992 is a part of a great project sponsored by the Nordic Council."
s_2 = "Culture shock has never been so obvious or apparent to us."
s_3 = " The first step every traveller should take is to leave a Travel Plan with someone who can react. Hopes for a tourist-driven spending boom this summer were dashed. "

我试图做的是标记这三个字符串,并使用pos标记提取语音部分:

import nltk

s = str(s_1+s_2+s_3)

tokens = nltk.word_tokenize(s)
nltk.pos_tag(tokens)

我想做的,但我不知道怎么做,是使用POS标记提取形容词,副词和动词(即在情感分析中可能更相关的部分)并尝试手动分配得分(+1,0,-1)。因此,我的问题是如何提取所有这些部分并“手动”分配分数。 我已经尝试过

adjectives =[token for tokens, pos in nltk.pos_tag(nltk.word_tokenize(b)) if pos.startswith('JJ')]

但是我还需要检查语音的其他部分,并为它们分配分数,查看前一个单词和下一个单词。

我知道:当有很多字符串(大约100个)并且上下文中可能会出现很多问题时,这并不是一件容易的事(我认为使用n-gram可能会很有用)。
从您的角度来看,什么是进行情感分析的好方法?我认为最好的精度可以通过手动检查和分配分数来获得(避免尖酸刻薄,双重否定句子等),但是我对模型的准确性(或如何改善现有模型)感兴趣。这是我第一次进行情绪分析。我愿意从头开始建立模型,收集所有相关的词性。 当然,如果您知道我可以申请此练习的(更好)现有模型/库,我将很乐意将其考虑在内。

0 个答案:

没有答案