应用错误收集

我在Spark上使用Python时遇到问题。我想在Spark上使用Pandas，但找不到正确的方法。我知道可以用--py-files命令添加压缩的库/软件包。我已经尝试过以下代码：

# main code
spark = SparkSession.builder.appName("trial").enableHiveSupport().getOrCreate()
dirname = os.path.dirname(__file__)
filename = os.path.join(dirname, 'pandas0.2.34.zip')
spark.sparkContext.addPyFile(filename) 
import pandas
.....

我以这种方式运行火花作业：

spark-submit --master yarn --deploy-mode client --py-files pandas0.2.34.zip main.py

但是我发生以下错误：

ImportError: No module named pandas

我下载了pandas库，并使用以下命令手动进行了压缩：

zip -r ../pandas0.2.34.zip

我不知道这是正确的方法还是我犯了一些错误。我愿意接受其他任何可能的解决方案。

添加pandas库以在不手动在集群节点上安装的情况下启动Spark

0 个答案: