我目前正在开展情感分析项目,这是第一次使用推文作为输入。这些推文的主题是体育,目前我正在预处理数据并尝试为它们分配极性。分配这些情绪分数的许多不同方式令我感到困惑,因此我有一些问题:
这个帖子(Training data for sentiment analysis)列出了一些语料库,但没有一个适用于体育。我可以使用其中一种训练适用于我的情况的分类器吗?或者使用不相关的语料库会导致结果偏差吗?
依靠本主题的词典(例如上面的链接)是否有可能取得好成绩?
我应该查询我的数据库并手动注释推文以训练分类器吗?
由于
答案 0 :(得分:0)
一般情况下,情感分析总会受到使用通用语料库的影响,因为某些域的语法不会被考虑。但是,它可能不会显着影响您的搜索结果,因为bad
或great
等字词会严重分化,无论您的域名区域如何。
是的,但是如果您要实施的产品,您想要创建/找到更适合您的目标域语料库的语料库,并确保结果在统计上没有显着差异。
没有?如果你找到一个附有单词权重的语料库,你就可以训练一个分类器。否则你必须自己确定重量。