我有来自彭博社,MarketWatch,CNN等各种金融网站的新闻报道列表。我想根据财务相关性对文章进行分类,以便了解是否涉及任何财务困境或任何危机。< / p>
我使用NLTK在Python中开发了一个程序,根据其财务相关性为每篇文章提供分数。
目前,我正在使用关键字的列表/词典,如:
并检查新闻文章中此列表中有多少单词,并为每个单词保留一个分数,然后添加所有单词分数以获得总分。
同样,我有财务短语的列表/词典:
从此列表中得分并添加上面的列表,然后将总分数分配给文章,该文章是其相关性的指标。
我想在这个过程中加入机器学习,并希望将上述方法中已经分类的新闻文章作为训练集。
请帮助找到实现此目的的最佳算法。