我有一个包含1亿行用户在线活动的大型数据集。每行包括时间戳,用户ID和站点域名。我想将数据集转换为唯一域和用户ID的矩阵,以便执行一些矩阵运算。唯一域的数量约为100K,唯一用户的数量约为1000万。矩阵非常稀疏。
使用的最佳软件包或技术是什么?我意识到我的问题非常广泛。我正在使用python和Google Cloud Platform,所以我希望这些解决方案可以解决这些问题。
答案 0 :(得分:0)
从python的角度来看,我目前正在使用 h5py 来处理这些大数据。它也很快。你应该检查一下。但是,我相信Google可能会提供一些处理此类数据的方法。