我正在做一个小型的研究项目,我应该尝试将财经新闻文章标题分为正面和负面类。对于分类我正在使用SVM方法。我现在看到的主要问题是它没有很多功能可以为ML生产。新闻文章包含很多命名实体和其他“垃圾”元素(当然从我的角度来看)。
您能否建议可以用于ML培训的ML功能?目前的结果是:精度= 0.6,召回率= 0.8
由于
答案 0 :(得分:2)
这项任务并非微不足道。
直接的方法是找到或创建训练集。这是一组带有正面新闻的标题和一组带有负面新闻的标题。 您将训练集转换为TF / IDF表示,然后训练线性SVM以分离这两个类。根据训练集的质量和大小,你可以获得一些体面的东西 - 不确定0.7收支平衡点。
然后,为了获得更好的结果,您需要采用NLP方法。尝试使用词性标注器来识别形容词(琐碎),然后使用像SentiWordNet这样的情感数据库对它们进行评分。
您应该阅读Sentiment Analysis by Bo Pang and Lillian Lee的精彩概述:
答案 1 :(得分:1)
这些功能怎么样?
如果您被允许访问实际文章,您可以使用实际文章中的表面特征,例如其总长度,甚至可能是响应的数量或对该文章的反对程度。您还可以在线查看许多其他词典,例如Ogden的850基础英语词典,并查看糟糕/好的文章是否可能从这些词汇中提取很多单词。我同意似乎很难为此目的提出有用的功能的长列表(例如100个功能)。
答案 2 :(得分:0)
iliasfl是对的,这不是一项简单的任务。
我会使用一袋单词方法,但首先使用POS标签来标记标题中的每个单词。然后你可以删除所有命名的实体 - 正如你正确指出的那样,不会影响情绪。其他单词应该足够频繁出现(如果你的数据集足够大),可以将自己排除在正极化或负极化之外。
更进一步,如果你还没有接近,可能只是从标记数据中选择形容词和动词,因为它们是倾向于传达情感或情绪的词。
我不会对你的精确度和召回数字感到沮丧,但F值为0.8及以上实际上相当不错。