如何改进twitter情绪分析器?

时间:2016-06-03 20:22:56

标签: c++ twitter machine-learning sentiment-analysis

我正在开发一个C ++ Twitter公司情绪分析工具。用户输入公司,该工具分析一组推文并返回情绪。

到目前为止,我做了以下事情:

  1. 将推文限制为英语和最近
  2. 制作小写
  3. 删除RT,#符号,@ usernames和网址
  4. 删除像& ^%$(){}等等字符
  5. 然后我将推文解析为单词,并检查两个词的正面和负面词汇。我为每条推文创建了一个完整的情绪。然后我计算正面,中性和负面推文的数量,以得出最终答案。没有使用重量。

    我正在考虑实施以下两件事:

    1. 从推文中删除停用词
    2. 从推文中删除特殊字符和表情符号(基本上是非英语Unicode)
    3. 然而,即便如此,大多数搜索最终都是非常中立的。例如,如果我在100条推文中搜索“Apple”,我会说30个正数,10个负数和60个中性。

      问题:
      1.有没有办法降低中立数?
      2.我应该添加什么样的正面和负面词来代表我的搜索标准(公司)

1 个答案:

答案 0 :(得分:1)

你说没有使用加权,但为什么不添加它。为每个+/-字分配1的基本权重,然后可以应用以下某些条件:

  1. 如果他们使用“非常”,“极端”等词语,则加权以下形容词更重(或者不加权,只计算两者都是+/-字)
  2. 而不是将所有内容更改为小写,如果有单词的大写字母加权那些用乘数加重的单词
  3. 像“好”这样的评价词比“好”
  4. 之类的词更重要