在关系中不同主题的情绪分析中处理(得分)分散的正确方法是什么?

时间:2017-08-27 11:12:25

标签: sentiment-analysis

我正在分析社交网络上的情绪。基于不同的主题关系作为输入。我们如何处理个别主题分数的分散?

例如:我们正在尝试对主题进行评分,该主题是包含不同关键字的事件,让我们说主题是创新周,其中包含以下主题(关键字或同义词) ):

Innovation week = {"innovation week", "data solution", "emerging technologies", "august 30"...}.

如果分数的标准偏差如此之大,该怎么办? 我们是否提问:

  • 情感分析算法本身?

  • 我们的输入关键字?

  • 或者我们只是按原样取得结果?因为它们代表了构成主题的不同粒度级别的人们的不同观点?最终目的是对主题有一个全面的了解。

我认为问题很简单,尽管这是社交网络中任何情绪分析研究的一个问题。

2 个答案:

答案 0 :(得分:1)

简短的答案是算法和输入关键字,因为它们相互依赖。 给定正确的输入,在任何算法中,色散都会增加,并且如果给出错误的算法,任何输入都会发生相同的输入。

通常在这种情况下,您应该修改算法,因为在大多数情况下就是这种情况。

您还可以阅读本文以便更好地理解它: http://www.cs.cornell.edu/home/llee/omsa/omsa-published.pdf

答案 1 :(得分:1)

如果您对算法不确定,可以使用NLTK Vader Sentimenter检查结果。但可能答案是如此不同,以至于标准偏差分数如此之大。

您是否有测试数据来测试您的算法?如果不是,你无论如何都要测量算法的标准测量值。

Standard Measurements