从多个来源存储机器学习目的数据的最佳实践

时间:2017-06-21 15:10:02

标签: mysql json mongodb csv storage

目前,我正在从多个来源提取数据并研究不同的机器学习方法,以使用这些数据集训练模型。展望未来,我想提出最好的数据存储计划。

目前,我正在使用普通的旧CSV。但是,我有动力切换的一个原因是由于数据集中存在所有属于同一对象的相关字段。例如,如果我们存储有关多家餐馆的数据,我会为餐厅编号,并为其提供多个字段。更具体地说,我将在标题中有一个相关的字段,即restaurant_1_namerestaurant_1_locationrestaurant_2_namerestaurant_2_location ...等等。此外,在特定情况下,某些数据点将具有可变数量的餐馆,因此我将不得不为CSV中的许多潜在字段创建空条目。此外,为了增加这种可变性,来自不同来源的数据将具有其他字段和缺少字段。

由于我们数据的面向对象特性,我认为考虑另一种形式的数据存储可能会更好。作为初始解决方案,我想到了JSON,因为它允许可变数量的属性和对象分组作为字典列表。作为奖励,它是与Python词典和pandas模块(我正在使用的语言/模块)相当兼容的形式(但大多数数据格式也是如此)。

根据这些数据的性质,选择CSV,JSON,NoSQL(即Mongo),SQL(即Postgres,MySQL)等选项中最可行的数据方法的最佳实践和方法是什么考虑到数据来源/点之间的差异以及数据的客观性质?此外,是否值得将数据合并为一种格式,或者将其与数据源分开?

1 个答案:

答案 0 :(得分:0)

我建议使用mongo,因为它足够灵活,它允许您存储非结构化数据,并且查询起来会容易得多。 IMO