在python中处理大型数据池

时间:2011-04-03 10:38:11

标签: python large-data database

我正在开展一项旨在研究人们行为的学术项目。

该项目将分为三个部分:

  1. 从某些远程源读取数据并使用它构建本地数据池的程序。
  2. 验证此数据池并保持一致性的程序
  3. 允许人们阅读/操作数据的网络界面。
  4. 数据由人员列表组成,所有人都有ID#,并且具有以下几个特征:身高,体重,年龄......

    我需要轻松地从这些数据中创建组(例如:所有具有给定年龄或一系列高度的数据)并且数据是几TB(但可以在2-3 gb的较小子集中减少)。 / p>

    我对该项目的理论背景有很强的背景知识,但我不是计算机科学家。我知道java,C和Matlab,现在我正在学习python。

    我想使用python,因为它似乎很容易,并大大减少了Java的冗长。问题是我想知道如何处理数据池。

    我不是数据库的专家,但我想我需要一个。你认为我应该使用什么工具?

    请记住,目标是在数据集上实现非常高级的数学函数,因此我们希望降低源代码的复杂性。速度不是问题。

3 个答案:

答案 0 :(得分:5)

听起来所需的主要功能可以从以下方面找到:
pytables

scipy/numpy

答案 1 :(得分:3)

使用像MongoDB这样的NoSQL数据库,在这种情况下处理数据要比学习SQL容易得多。

答案 2 :(得分:1)

由于您不是专家,我建议您使用mysql数据库作为存储数据的后端,这很容易学习,您将有能力使用SQL查询数据并使用python编写数据。 MySQL Guide Python-Mysql