标签: python pyspark
我在PySpark数据框中有一个距离矩阵,我试图获取数据的上(或下)三角形并将结果放在另一个数据框中。
例如,我试图改变这个:
1,2,3,4 2,1,2,3 3,2,1,2 4,3,2,1
1,2,3,4
2,1,2,3
3,2,1,2
4,3,2,1
进入这个:
1,2,3,4 0,1,2,3 0,0,1,2 0,0,0,1
0,1,2,3
0,0,1,2
0,0,0,1
我已经看过numpy,但是从我所读到的内容中可以打破Spark的并发优势。