如何处理巨型稀疏矩阵?

时间:2013-09-03 01:12:18

标签: hadoop matrix distributed-computing sparse-matrix

有人指出我正确的方向。我希望对一些非常庞大且通常非常稀疏的矩阵进行一些重型操作,并且我正在为这项工作寻找合适的工具。这些矩阵将比任何一台机器的RAM大得多,因此很可能会扩散到几台不同的机器上。矩阵通常很稀疏。我想要执行所有常见的矩阵运算:乘法,转置,逆,伪逆,SVD,特征值分解等。我担心的关键可能是因为矩阵很可能会在几台机器之间传播,我会希望尽量减少信息共享,因为网络延迟可能是我最大的敌人。我担心map-reduce(la Hadoop)不是正确的选择,因为它的重点是在机器之间传输大量数据。 This book provides a great intro to map-reduce from an algorithmic perspective.许多矩阵运算类似于已知缓慢或映射减少的巨型JOIN运算。

所以......我应该去哪里?

1 个答案:

答案 0 :(得分:0)

本文:Design of Hadoop-based Large-Scale Matrix Computations可以帮助您制定实施指南。 HBase用于存储稀疏表,因此HBase可能是Matrices的推荐存储选项。