5000条评论的个人情绪分析的平均值是否与5000条评论的串联情绪分析相同?

时间:2018-03-08 18:51:54

标签: machine-learning nlp artificial-intelligence sentiment-analysis

我试图在reddit线程上进行情绪分析。我面临的问题是,云端NLP API(Google自然语言,Azure文本分析等)的一些免费层只允许每月在免费套餐中进行5000次呼叫。我试图看看是否可以将一些评论连接到每次调用的最大字符数限制,以获得更多在免费套餐中分析的评论。

  • 这是一个有缺陷的方法吗?
  • 对串联的评论进行情绪分析是否会导致错误的情绪评分?
  • 我应该对个别评论进行情绪分析,然后平均所有个别评分以获得整体评分?

1 个答案:

答案 0 :(得分:0)

有趣的问题 - 如果评论独立且根本不相关那么连接或平均值都可能引导您获得中性分数 - 类似于结果一系列硬币投掷是0.5而不是1或0.这将不是非常有用

但是,假设您正在对一个帖子附近的reddit线程进行情绪分析(而不是对subreddit中多个帖子的线程进行分析),您可能会得到相同的结果连接或平均。 reddit线程中的注释通常是相关的,正面或负面(或完全不相关)。所以你应该在你的用例中使用你提出的连接方法来获取情绪。

我的理论(尚未得到数据支持)是,使用平均值或连接值会将您的情绪集中在中性线上,您不会看到强烈的正面或负面效应。