大数据的数据透视表(2.5米vs 2米)

时间:2013-10-22 07:13:52

标签: python mysql

我有一个包含以下架构的表: 用户ID | locationid |重量

基本问题是我需要创建数据透视表,以便用户ID为行 locationid为列,权重为矩阵。这可以在Excel和python中轻松实现,但问题的主要部分是我的数据大小非常大,关于 250万用户和200万个位置。这在Excel中是不可能的,我没有足够的RAM来通过python执行它。

请告诉我最好的方法是什么。

可能有一个表(数百万行)看起来像:

Table1

他需要的输出是:(数百万行和列)

Table2

1 个答案:

答案 0 :(得分:0)

你想对结果做什么?你知道结果枢轴需要一些太阳能存储吗?我不容易管理。

您可以按用户标识和locationid对数据进行排序,并将数据视为稀疏矩阵。