我正在使用2个矩阵,一个尺寸减小的历史数据矩阵和另一个包含新数据的矩阵(两者都在BlockMatrix数据结构中)。我想做一些在numpy中容易的事情
ya=dot(oldDataMat,newDataMat[:,i])
但在Spark中工作我发现我需要转置newData BlockMatrix的列,这样我就可以做一个.map然后我发现我不能做一个包含oldDataMat BlockMatrix的.map函数,因为它不在工人。所以我想知道A)是否有更简单的方法来做简单的numpy或B)你如何在PySpark中播放BlockMatrix?上下文是我想找到新数据矩阵和旧数据矩阵之间的余弦相似性。
谢谢!