我想从pdf中提取内容,但是pypdf2
不能提取所有信息,并且由于以下错误,textract
无法安装到3.7中:
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to <undefined>
答案 0 :(得分:1)
textract
的源文件
pip3 install pdfminer3k
untar
下载的文件
cd
进入目录
运行:python3 setup.py install
希望它对您有用:)
答案 1 :(得分:0)
我已通过以下步骤在Windows 10上安装了textract
:-
pip install textract
C:\Program Files
C:\Program Files\poppler-0.68.0\bin
添加到路径变量import textract
textract.process('path_to_file_with_extension')
要进一步参考,您可以click here
希望对您有帮助!