标签: scala apache-spark distributed-computing
我有一个数据框,其中包含所有数值以及未定义的列和行数。数据框太大,无法在本地使用,但最终目标是计算X ^ TX,其中X是数据框/矩阵。我正在尝试将数据帧转换为CoordinateMatrix,然后转换为块矩阵,以便在分发时可以与其自身相乘。为了做到这一点,我需要给构造函数传递一个MatrixEntry,它需要行号和列号。但是,我不确定在映射时如何从数据框中获取这些信息。如果有人知道如何执行此操作或实现此操作的更好方法,将不胜感激。