问:情绪分析:推特极性较少受欢迎的科目

时间:2017-08-25 12:52:12

标签: python twitter sentiment-analysis

我目前正在开展情感分析项目,这是第一次使用推文作为输入。这些推文的主题是体育,目前我正在预处理数据并尝试为它们分配极性。分配这些情绪分数的许多不同方式令我感到困惑,因此我有一些问题:

  1. 这个帖子(Training data for sentiment analysis)列出了一些语料库,但没有一个适用于体育。我可以使用其中一种训练适用于我的情况的分类器吗?或者使用不相关的语料库会导致结果偏差吗?

  2. 依靠本主题的词典(例如上面的链接)是否有可能取得好成绩?

  3. 我应该查询我的数据库并手动注释推文以训练分类器吗?

  4. 由于

1 个答案:

答案 0 :(得分:0)

  1. 一般情况下,情感分析总会受到使用通用语料库的影响,因为某些域的语法不会被考虑。但是,它可能不会显着影响您的搜索结果,因为badgreat等字词会严重分化,无论您的域名区域如何。

  2. 是的,但是如果您要实施的产品,您想要创建/找到更适合您的目标域语料库的语料库,并确保结果在统计上没有显着差异。

  3. 没有?如果你找到一个附有单词权重的语料库,你就可以训练一个分类器。否则你必须自己确定重量。