PySpark用于BlockMatrix的广播变量

时间:2017-11-14 17:29:01

标签: python numpy apache-spark pyspark

我正在使用2个矩阵,一个尺寸减小的历史数据矩阵和另一个包含新数据的矩阵(两者都在BlockMatrix数据结构中)。我想做一些在numpy中容易的事情

ya=dot(oldDataMat,newDataMat[:,i])

但在Spark中工作我发现我需要转置newData BlockMatrix的列,这样我就可以做一个.map然后我发现我不能做一个包含oldDataMat BlockMatrix的.map函数,因为它不在工人。所以我想知道A)是否有更简单的方法来做简单的numpy或B)你如何在PySpark中播放BlockMatrix?上下文是我想找到新数据矩阵和旧数据矩阵之间的余弦相似性。

谢谢!

0 个答案:

没有答案