我在Spark上使用Python时遇到问题。我想在Spark上使用Pandas,但找不到正确的方法。我知道可以用--py-files命令添加压缩的库/软件包。我已经尝试过以下代码:
# main code
spark = SparkSession.builder.appName("trial").enableHiveSupport().getOrCreate()
dirname = os.path.dirname(__file__)
filename = os.path.join(dirname, 'pandas0.2.34.zip')
spark.sparkContext.addPyFile(filename)
import pandas
.....
我以这种方式运行火花作业:
spark-submit --master yarn --deploy-mode client --py-files pandas0.2.34.zip main.py
但是我发生以下错误:
ImportError: No module named pandas
我下载了pandas库,并使用以下命令手动进行了压缩:
zip -r ../pandas0.2.34.zip
我不知道这是正确的方法还是我犯了一些错误。我愿意接受其他任何可能的解决方案。