财经新闻机器学习

时间:2014-08-27 09:33:31

标签: python machine-learning classification nltk

我有来自彭博社,MarketWatch,CNN等各种金融网站的新闻报道列表。我想根据财务相关性对文章进行分类,以便了解是否涉及任何财务困境或任何危机。< / p>

我使用NLTK在Python中开发了一个程序,根据其财务相关性为每篇文章提供分数。

目前,我正在使用关键字的列表/词典,如:

  • 市场
  • 财务
  • 损失
  • 贷款等

并检查新闻文章中此列表中有多少单词,并为每个单词保留一个分数,然后添加所有单词分数以获得总分。

同样,我有财务短语的列表/词典:

  • 未能与债权人达成协议
  • 破产档案
  • 第11章的文件等

从此列表中得分并添加上面的列表,然后将总分数分配给文章,该文章是其相关性的指标。

我想在这个过程中加入机器学习,并希望将上述方法中已经分类的新闻文章作为训练集。

请帮助找到实现此目的的最佳算法。

1 个答案:

答案 0 :(得分:2)

这是一个分类机器学习问题,Logistic回归可以解决这个问题:

Logistic Regression Wikipedia