添加pandas库以在不手动在集群节点上安装的情况下启动Spark

时间:2018-10-26 10:41:22

标签: python pandas apache-spark pyspark

我在Spark上使用Python时遇到问题。我想在Spark上使用Pandas,但找不到正确的方法。我知道可以用--py-files命令添加压缩的库/软件包。我已经尝试过以下代码:

# main code
spark = SparkSession.builder.appName("trial").enableHiveSupport().getOrCreate()
dirname = os.path.dirname(__file__)
filename = os.path.join(dirname, 'pandas0.2.34.zip')
spark.sparkContext.addPyFile(filename) 
import pandas
.....

我以这种方式运行火花作业:

spark-submit --master yarn --deploy-mode client --py-files pandas0.2.34.zip main.py

但是我发生以下错误:

ImportError: No module named pandas

我下载了pandas库,并使用以下命令手动进行了压缩:

zip -r ../pandas0.2.34.zip

我不知道这是正确的方法还是我犯了一些错误。我愿意接受其他任何可能的解决方案。

0 个答案:

没有答案