在数据帧上的火花中使用管道

时间:2018-10-04 14:15:03

标签: apache-spark

我正在尝试在数据帧中的列上运行可执行脚本。

当前,Spark仅允许管道在RDD上运行,这非常麻烦。我目前正在考虑编写自己的自定义scala模块来执行此操作,但是我还没有找到一种好的方法:启动脚本并在数据框中运行多个记录。这是为了避免我尝试应用的脚本的启动成本。

0 个答案:

没有答案