我正在编写一个小新闻情绪分析应用程序 - 在python中。我想准备一个新闻文章数据库来训练我的分类器,所以我想知道从网上获取新闻文章的最佳方法是什么。我查看newspaper,它看起来像一个很酷的模块,非常通用,但我正在寻找的是一种获取旧新闻文章的方式 - 即2014年的所有新闻文章。报纸只使用从未过去的RSS提要很久以前。另一种选择是为谷歌新闻编写一个刮刀,并在网址中按日期过滤,或者使用像NYT这样的发布商API(他们有API)。
创建像这样的新闻文章数据库的最佳方法是什么?我可以使用网上的工具/数据库来获取文章吗?