我正在做一个NLP术语项目,正在分析这个语料库中的100,000多篇新闻文章。 https://github.com/philipperemy/financial-news-dataset
我希望使用NLTK对此数据集进行情绪分析。但是,我对这个管道应该如何存储和访问所有这些文章感到有点困惑。
文章是我阅读并执行一些预处理的文本文件,以便提取一些元数据并提取主文章文本。目前,我将每篇文章的数据存储在python对象中,例如:
{
'title' : title,
'author' : author,
'date' : date,
'text' : text,
}
我想将这些对象存储在数据库中,因此每次我想要进行分析时都不必阅读所有这些文件。我的问题是,我不确定使用哪个数据库。我希望能够在某些字段(例如日期和标题)上使用正则表达式,以便我可以按日期和公司名称隔离文档。我正在考虑使用NoSql路由并使用像MongoDb或CouchDB这样的数据库,甚至可能使用像ElasticSearch这样的搜索引擎。
在我查询要用于分析的文档后,我将对文本进行标记,POS标记它,并使用NLTK执行NER。我已经实现了这部分管道。在数据库已经在数据库中编入索引后,这样做是否明智?或者我应该将处理后的数据存储在数据库中吗?
最后,我将使用此处理过的数据,使用我已经开发的训练模型对每篇文章进行分类。我已经有了黄金标准,所以我会将分类与黄金标准进行比较。
此管道通常看起来是否正确?我没有太多使用像这样的大型数据集的经验。