对要在网上发布的大数据集进行统计分析

时间:2010-04-19 12:58:33

标签: php python postgresql statistics

我有一个非计算机相关的数据记录器,它从字段中收集数据。这些数据存储为文本文件,我手动将文件放在一起并组织它们。当前格式是每个记录器每年通过一个csv文件。每个文件大约4,000,000行x 7个记录器x 5年=大量数据。一些数据被组织为bin,item_type,item_class,item_dimension_class,其他数据更加独特,例如item_weight,item_color,date_collected等等......

目前,我使用我编写的python / numpy / matplotlib程序对数据进行统计分析。它工作正常,但问题是,我是唯一可以使用它的人,因为它和数据存在于我的计算机上。

我想使用postgres db在网上发布数据;但是,我需要找到或实施一个统计工具,它将采用一个大的postgres表,并在适当的时间范围内返回统计结果。我不熟悉网络的python;但是,我精通网络上的PHP,以及离线方面的python。

应允许用户创建自己的直方图,数据分析。例如,用户可以搜索在第x周和第y周之间发送蓝色的所有项目,而另一个用户可以搜索按年份按小时对所有项目的权重分布进行排序。

我正在考虑创建和索引自己的统计工具,或者以某种方式自动化流程以模拟大多数查询。这似乎效率低下。

我期待听到您的想法

由于

1 个答案:

答案 0 :(得分:1)

我认为如果用户数量不是太大,你可以充分利用你当前的组合(python / numpy / matplotlib)。我做了一些类似的工作,我的数据大小超过10克。数据存储在几个sqlite文件中,我使用numpy分析数据,PIL / matplotlib生成图表文件(png,gif),cherrypy作为网络服务器,mako作为模板语言。

如果你需要更多的服务器/客户端数据库,那么你可以迁移到postgresql,但如果你使用python web框架,你仍然可以完全使用你当前的程序,如cherrypy。