如何解决“必须安装“ ImportError:PyArrow> = 0.8.0;但是,找不到”。

时间:2019-03-27 13:20:14

标签: apache-spark pyspark pyspark-sql

我使用PySpark 2.4.0,并且在id中执行以下代码时:

mytextfield1

如何解决?

4 个答案:

答案 0 :(得分:1)

在这种情况下,错误消息具有误导性,未安装pyarrow

根据官方文档Spark SQL Guide(导致Installing PyArrow),您只需执行以下命令之一:

$ conda install -c conda-forge pyarrow

$ pip install pyarrow

答案 1 :(得分:1)

我也遇到了这个问题,但事实证明这是一个虚拟环境问题。

所以我跑:

conda deactivate
conda activate <NAME_OF_VENV>

然后我可以正常安装。

答案 2 :(得分:0)

重新安装pyarrow对我有用:

$ pip uninstall pyarrow -y
$ pip install pyarrow

,然后重新启动内核。

答案 3 :(得分:0)

我有同样的问题要让pyarrow使用Spark 2.3。 以下解决了我的问题:

  1. 因为我的Deb9软件包来了,所以请卸载熊猫

    sudo apt-get remove python-pandas

  2. 安装熊猫(pandas (0.24.2)

    sudo pip install pandas

  3. 安装pyarrow(pyarrow (0.16.0)):

    sudo pip install pyarrow

  4. 将以下内容添加到spark-env.sh

    ARROW_PRE_0_15_IPC_FORMAT=1

  5. 重新启动所有工人和主人

  6. 运行pyspark