必须安装PyArrow> = 0.8.0;但是,找不到

时间:2020-10-10 02:29:43

标签: pyspark anaconda

我在Cloudera平台上,我试图在pyspark中使用pandas UDF,但出现错误。 必须安装PyArrow> = 0.8.0;但是,找不到。

在平台上安装pyarrow 0.8.0需要时间。

在不安装pyarrow的情况下是否可以使用熊猫udf解决方法? 我可以在我的个人anaconda环境中安装,是否可以导出conda并在pyspark中使用它?

1 个答案:

答案 0 :(得分:0)

  • 我可以在我的个人anaconda环境中安装,是否可以导出conda并在pyspark中使用它? 不,因为pyspark是分布式的,所以不能简单地安装在计算机中并使用它。

但是您可以打包venv并将其运送到pyspark worker,而无需在平台的每台计算机上安装pyarrow之类的自定义软件包。
要使用virtualenv,只需遵循venv-pack软件包的说明。 https://jcristharif.com/venv-pack/spark.html