应用错误收集

时间：2019-03-24 07:47:18

标签： python python-3.7

我想从pdf中提取内容，但是pypdf2不能提取所有信息，并且由于以下错误，textract无法安装到3.7中：

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to <undefined>

答案 0 :(得分：1)

textract

希望它对您有用:)

答案 1 :(得分：0)

我已通过以下步骤在Windows 10上安装了textract：-

pip install textract
安装 poppler ：
- 下载存档-http://blog.alivate.com.au/wp-content/uploads/2018/10/poppler-0.68.0_x86.7z
- 提取
- 将完整文件夹粘贴到C:\Program Files
- 将C:\Program Files\poppler-0.68.0\bin添加到路径变量
安装完成
测试者-import textract
textract.process('path_to_file_with_extension')

要进一步参考，您可以click here

希望对您有帮助！