EMR PySpark“ ModuleNotFoundError:没有名为'spacy'的模块”

时间:2019-10-09 18:07:47

标签: pyspark pip conda amazon-emr spacy

我一直没有尝试将Spacy安装到我的EMR群集上以运行Pyspark作业,但未成功。 我对EMR的引导操作看起来像这样

pip install --upgrade pip

sudo conda install -c conda-forge spacy
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en 

sudo python3 -m pip install -U spacy
sudo python3 -m pip install -U boto3
sudo python3 -m pip install -U pandas
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en

正如您在上面看到的,我一直在尝试通过pip和conda来安装它,但是似乎都没有用。 出乎意料的是,当我使用jupyter笔记本并且不尝试将pyspark作业提交给EMR时,它可以工作。

1 个答案:

答案 0 :(得分:0)

我也遇到过类似的问题。某些可行的方法:

  1. 在引导操作中检查EMR中的stdout,stderr文件。在集群-配置详细信息-LOG URI的摘要部分中提到了
  2. 显然,Spacy具有Cython依赖性,并且不会自动下载。因此,包含以下命令会有所帮助:
    sudo python3 -m pip install --upgrade pip

    sudo python3 -m pip install --upgrade pip setuptools
    
    sudo python3 -m pip install wheel
    
    sudo python3 -m pip install -U Cython

    sudo python3 -m pip install -U spacy==2.3.5

    sudo python3 -m spacy download en_core_web_sm