我正在分析社交网络上的情绪。基于不同的主题关系作为输入。我们如何处理个别主题分数的分散?
例如:我们正在尝试对主题进行评分,该主题是包含不同关键字的事件,让我们说主题是创新周,其中包含以下主题(关键字或同义词) ):
Innovation week = {"innovation week", "data solution", "emerging technologies", "august 30"...}.
如果分数的标准偏差如此之大,该怎么办? 我们是否提问:
情感分析算法本身?
我们的输入关键字?
或者我们只是按原样取得结果?因为它们代表了构成主题的不同粒度级别的人们的不同观点?最终目的是对主题有一个全面的了解。
我认为问题很简单,尽管这是社交网络中任何情绪分析研究的一个问题。
答案 0 :(得分:1)
简短的答案是算法和输入关键字,因为它们相互依赖。 给定正确的输入,在任何算法中,色散都会增加,并且如果给出错误的算法,任何输入都会发生相同的输入。
通常在这种情况下,您应该修改算法,因为在大多数情况下就是这种情况。
您还可以阅读本文以便更好地理解它: http://www.cs.cornell.edu/home/llee/omsa/omsa-published.pdf
答案 1 :(得分:1)
如果您对算法不确定,可以使用NLTK Vader Sentimenter检查结果。但可能答案是如此不同,以至于标准偏差分数如此之大。
您是否有测试数据来测试您的算法?如果不是,你无论如何都要测量算法的标准测量值。