因此,当我尝试在Amazon EMR实例中安装textract时,我遇到了这个问题。我在网上尝试了几乎所有可能的解决方案,似乎没有什么对我有用。有人可以帮忙吗?
命令 -
sudo pip install textract
Error -
sleading-indentation
deps/sphinxbase/src/libsphinxad/ad_pulse.c:44:30: fatal error: pulse/pulseaudio.h: No such file or directory
#include <pulse/pulseaudio.h>
^
compilation terminated.
error: command 'gcc' failed with exit status 1
----------------------------------------
Command "/usr/bin/python2.7 -u -c "import setuptools, tokenize;__file__='/mnt/tmp/pip-build-3dsfXm/pocketsphinx/setup.py';f=getattr(tokenize, 'open', open)(__file__);code=f.read().replace('\r\n', '\n');f.close();exec(compile(code, __file__, 'exec'))" install --record /tmp/pip-lW6lBv-record/install-record.txt --single-version-externally-managed --compile" failed with error code 1 in /mnt/tmp/pip-build-3dsfXm/pocketsphinx/
&#13;
答案 0 :(得分:1)
迟到的答案 - 但仍然可以帮到你。
面临类似问题 - 通过安装以下依赖项解决:
sudo apt-get install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev libpulse-dev swig
textract文档中缺少的文档是libpulse-dev
sudo apt-get install libpulse-dev
还通过以下链接解决: Can't install textract (for python 2.x) on Ubuntu because of pocketsphinx
答案 1 :(得分:0)
没有真实答案。目前,不幸的是,Amazon Linux AMI实例不支持{{1}}。
答案 2 :(得分:0)
我自己解决了这个问题-如果将来有人发现并需要它,请留下答案。
sudo yum install -y pulseaudio-libs-devel python-devel libxml2-devel libxslt-devel poppler poppler-utils
这使我至少可以从PDF提取文本,这是我的主要目标。