火花是否支持矩阵?

时间:2014-06-12 06:14:30

标签: apache-spark

大多数在spark中使用矩阵运算的算法都必须使用Vector或以不同的方式存储数据。是否支持直接在spark中构建矩阵?

2 个答案:

答案 0 :(得分:2)

Apache最近发布了Spark-1.0。它支持在Spark中创建Matrices,这是一个非常吸引人的想法。虽然现在它处于试验阶段,并且支持可以通过您创建的Matrix执行的有限操作,但这在未来版本中肯定会增长。以Spark的速度执行Matrix操作的想法令人惊叹。

答案 1 :(得分:0)

我在Spark中使用矩阵的方式是通过python和numpy scipy。将数据从csv文件中拉入矩阵并根据需要使用。我对矩阵的处理方式和普通的python scipy一样。这就是你将数据并行化的方式,使它略有不同。

这样的事情:

for i in range(na+2):
 data.append(LabeledPoint(b[i], A[i,:]))

model = WhatYouDo.train(sc.parallelize(data), iterations=40, step=0.01,initialWeights=wa)

痛苦变得火热。找到确保包含所有其他库和文件所需的最佳方法是使用:

sudo yum install numpy scipy python-matplotlib ipython python-pandas sympy python-nose