标签: apache-spark
我正在尝试在数据帧中的列上运行可执行脚本。
当前,Spark仅允许管道在RDD上运行,这非常麻烦。我目前正在考虑编写自己的自定义scala模块来执行此操作,但是我还没有找到一种好的方法:启动脚本并在数据框中运行多个记录。这是为了避免我尝试应用的脚本的启动成本。