如何在Python 3中安装textract?

时间:2019-03-24 07:47:18

标签: python python-3.7

我想从pdf中提取内容,但是pypdf2不能提取所有信息,并且由于以下错误,textract无法安装到3.7中:

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to <undefined>

2 个答案:

答案 0 :(得分:1)

  1. https://pypi.python.org/pypi/textract

  2. 下载textract的源文件
  3. pip3 install pdfminer3k

  4. untar下载的文件

  5. cd进入目录

  6. 运行:python3 setup.py install

希望它对您有用:)

答案 1 :(得分:0)

我已通过以下步骤在Windows 10上安装了textract:-

  1. pip install textract
  2. 安装 poppler
  3. 安装完成
  4. 测试者-import textract
  5. textract.process('path_to_file_with_extension')

要进一步参考,您可以click here

希望对您有帮助!