财务新闻标题分类为正/负类

时间:2012-07-17 05:24:53

标签: nlp classification svm sentiment-analysis

我正在做一个小型的研究项目,我应该尝试将财经新闻文章标题分为正面和负面类。对于分类我正在使用SVM方法。我现在看到的主要问题是它没有很多功能可以为ML生产。新闻文章包含很多命名实体和其他“垃圾”元素(当然从我的角度来看)。

您能否建议可以用于ML培训的ML功能?目前的结果是:精度= 0.6,召回率= 0.8

由于

3 个答案:

答案 0 :(得分:2)

这项任务并非微不足道。

直接的方法是找到或创建训练集。这是一组带有正面新闻的标题和一组带有负面新闻的标题。 您将训练集转换为TF / IDF表示,然后训练线性SVM以分离这两个类。根据训练集的质量和大小,你可以获得一些体面的东西 - 不确定0.7收支平衡点。

然后,为了获得更好的结果,您需要采用NLP方法。尝试使用词性标注器来识别形容词(琐碎),然后使用像SentiWordNet这样的情感数据库对它们进行评分。

您应该阅读Sentiment Analysis by Bo Pang and Lillian Lee的精彩概述:

答案 1 :(得分:1)

这些功能怎么样?

  1. 文章标题的长度
  2. 平均字长
  3. 字典中“坏”字的字数,例如字典= {可怕,可怕,低迷,破产,......}。您可能必须自己生成这本词典。
  4. 该词典中的单词与句子中的总单词的比率
  5. 类似于3,但是“好”词典中的单词数量,例如dictionary = {boon,booming,employment,...}
  6. 与5类似,但使用“好”字词典
  7. 文章发表时间
  8. 文章发表日期
  9. 发布它的媒介(你必须做一些主观的分类)
  10. 某些标点符号的计数,例如感叹号
  11. 如果您被允许访问实际文章,您可以使用实际文章中的表面特征,例如其总长度,甚至可能是响应的数量或对该文章的反对程度。您还可以在线查看许多其他词典,例如Ogden的850基础英语词典,并查看糟糕/好的文章是否可能从这些词汇中提取很多单词。我同意似乎很难为此目的提出有用的功能的长列表(例如100个功能)。

答案 2 :(得分:0)

iliasfl是对的,这不是一项简单的任务。

我会使用一袋单词方法,但首先使用POS标签来标记标题中的每个单词。然后你可以删除所有命名的实体 - 正如你正确指出的那样,不会影响情绪。其他单词应该足够频繁出现(如果你的数据集足够大),可以将自己排除在正极化或负极化之外。

更进一步,如果你还没有接近,可能只是从标记数据中选择形容词和动词,因为它们是倾向于传达情感或情绪的词。

我不会对你的精确度和召回数字感到沮丧,但F值为0.8及以上实际上相当不错。