如何将大型数据集加载到python并执行矩阵运算

时间:2017-08-14 00:58:32

标签: python google-cloud-platform sparse-matrix bigdata

我有一个包含1亿行用户在线活动的大型数据集。每行包括时间戳,用户ID和站点域名。我想将数据集转换为唯一域和用户ID的矩阵,以便执行一些矩阵运算。唯一域的数量约为100K,唯一用户的数量约为1000万。矩阵非常稀疏。

使用的最佳软件包或技术是什么?我意识到我的问题非常广泛。我正在使用python和Google Cloud Platform,所以我希望这些解决方案可以解决这些问题。

1 个答案:

答案 0 :(得分:0)

从python的角度来看,我目前正在使用 h5py 来处理这些大数据。它也很快。你应该检查一下。但是,我相信Google可能会提供一些处理此类数据的方法。