我一直没有尝试将Spacy安装到我的EMR群集上以运行Pyspark作业,但未成功。 我对EMR的引导操作看起来像这样
pip install --upgrade pip
sudo conda install -c conda-forge spacy
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en
sudo python3 -m pip install -U spacy
sudo python3 -m pip install -U boto3
sudo python3 -m pip install -U pandas
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en
正如您在上面看到的,我一直在尝试通过pip和conda来安装它,但是似乎都没有用。 出乎意料的是,当我使用jupyter笔记本并且不尝试将pyspark作业提交给EMR时,它可以工作。
答案 0 :(得分:0)
我也遇到过类似的问题。某些可行的方法:
sudo python3 -m pip install --upgrade pip
sudo python3 -m pip install --upgrade pip setuptools
sudo python3 -m pip install wheel
sudo python3 -m pip install -U Cython
sudo python3 -m pip install -U spacy==2.3.5
sudo python3 -m spacy download en_core_web_sm