Question

我需要研究以下字符串的观点：

s_1= "The Icelandic survey of foreign travellers 1991-1992 is a part of a great project sponsored by the Nordic Council."
s_2 = "Culture shock has never been so obvious or apparent to us."
s_3 = " The first step every traveller should take is to leave a Travel Plan with someone who can react. Hopes for a tourist-driven spending boom this summer were dashed. "

我试图做的是标记这三个字符串，并使用pos标记提取语音部分：

import nltk

s = str(s_1+s_2+s_3)

tokens = nltk.word_tokenize(s)
nltk.pos_tag(tokens)

我想做的，但我不知道怎么做，是使用POS标记提取形容词，副词和动词（即在情感分析中可能更相关的部分）并尝试手动分配得分（+1,0,-1）。因此，我的问题是如何提取所有这些部分并“手动”分配分数。我已经尝试过

adjectives =[token for tokens, pos in nltk.pos_tag(nltk.word_tokenize(b)) if pos.startswith('JJ')]

但是我还需要检查语音的其他部分，并为它们分配分数，查看前一个单词和下一个单词。

我知道：当有很多字符串（大约100个）并且上下文中可能会出现很多问题时，这并不是一件容易的事（我认为使用n-gram可能会很有用）。
从您的角度来看，什么是进行情感分析的好方法？我认为最好的精度可以通过手动检查和分配分数来获得（避免尖酸刻薄，双重否定句子等），但是我对模型的准确性（或如何改善现有模型）感兴趣。这是我第一次进行情绪分析。我愿意从头开始建立模型，收集所有相关的词性。当然，如果您知道我可以申请此练习的（更好）现有模型/库，我将很乐意将其考虑在内。

情绪分析分数

0 个答案: