标签: python apache-spark pyspark livy
我正在通过Livy将PySpark作业提交给集群。目前,依赖的python软件包(如NumPy,Pandas,Keras等)已安装在所有datanode上。想知道是否所有这些软件包都可以集中存储在HDFS中,以及如何配置Livy,PySpark从HDFS而不是从该数据节点读取这些软件包。