在Amazon EMR实例上安装textract的问题(它有CentOS)。

时间:2017-10-03 11:06:23

标签: centos

因此,当我尝试在Amazon EMR实例中安装textract时,我遇到了这个问题。我在网上尝试了几乎所有可能的解决方案,似乎没有什么对我有用。有人可以帮忙吗?

  

命令 - sudo pip install textract



Error - 

sleading-indentation
    deps/sphinxbase/src/libsphinxad/ad_pulse.c:44:30: fatal error: pulse/pulseaudio.h: No such file or directory
     #include <pulse/pulseaudio.h>
                                  ^
    compilation terminated.
    error: command 'gcc' failed with exit status 1
    
    ----------------------------------------
Command "/usr/bin/python2.7 -u -c "import setuptools, tokenize;__file__='/mnt/tmp/pip-build-3dsfXm/pocketsphinx/setup.py';f=getattr(tokenize, 'open', open)(__file__);code=f.read().replace('\r\n', '\n');f.close();exec(compile(code, __file__, 'exec'))" install --record /tmp/pip-lW6lBv-record/install-record.txt --single-version-externally-managed --compile" failed with error code 1 in /mnt/tmp/pip-build-3dsfXm/pocketsphinx/
&#13;
&#13;
&#13;

3 个答案:

答案 0 :(得分:1)

迟到的答案 - 但仍然可以帮到你。

面临类似问题 - 通过安装以下依赖项解决:

sudo apt-get install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev libpulse-dev swig

textract文档中缺少的文档是libpulse-dev

sudo apt-get install libpulse-dev

还通过以下链接解决: Can't install textract (for python 2.x) on Ubuntu because of pocketsphinx

答案 1 :(得分:0)

没有真实答案。目前,不幸的是,Amazon Linux AMI实例不支持{{1}}。

答案 2 :(得分:0)

我自己解决了这个问题-如果将来有人发现并需要它,请留下答案。

sudo yum install -y pulseaudio-libs-devel python-devel libxml2-devel libxslt-devel poppler poppler-utils

这使我至少可以从PDF提取文本,这是我的主要目标。