存储大数据python

时间:2016-04-22 11:49:37

标签: python arrays large-data

我是Python新手。最近,我有一个项目,在xml文件中处理大量的健康数据。 这是一个例子:

enter image description here

在我的数据中,大约有100个,每个都有不同的ID,来源,类型和文本。我想存储所有这些数据,以便我可以训练这个数据集,我脑海中的第一个想法是使用2D arry(一个存储id并发起其他存储文本)。但是,我发现有太多功能,我想知道哪些功能属于每个文档。

任何人都可以推荐一种最好的方法。

1 个答案:

答案 0 :(得分:0)

为了扩展性,简单性和维护性,您应该对这些数据进行规范化,构建数据库模式并将这些内容移动到数据库中(sqlite,postgres,mysql等)

这将使复杂的数据逻辑移出python。这是模型 - 视图 - 控制器的典型做法。

创建一个python字典并遍历它很快又脏。如果你想从数据中获得实际意义,它将很快成为巨大的技术时间。