ISO-8859-1中编码的PDF

时间:2019-04-07 20:16:58

标签: python pdf iso-8859-1

如何从python中以“ iso-8859-1”编码的pdf文件中读取文本?

我正在尝试使用python中的textract将pdf转换为txt,但是对于某些文件,我正面临“ unicodeDecodeError utf-8编解码器无法解码位置11的字节0xe2:无效的继续字节”。我认为该文件是iso-8859-1编码的。

File "/home/kanika/mypython/lib/python3.5/site-. 
packages/textract/parsers/__init__.py", line 77, in process
return parser.process(filename, encoding, **kwargs)
File "/home/kanika/mypython/lib/python3.5/site-. 
packages/textract/parsers/utils.py", line 46, in process
byte_string = self.extract(filename, **kwargs)
File "/home/kanika/mypython/lib/python3.5/site-. 
packages/textract/parsers/txt_parser.py", line 9, in extract
return stream.read()
File "/home/kanika/mypython/lib/python3.5/codecs.py", line 321, in 
decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position 
 11: invalid continuation byte

1 个答案:

答案 0 :(得分:0)

尝试一下。如果您想使用textract,这应该可以工作

text = textract.process("yourFile.pdf")

此处text将包含pdf中的所有文本。

然后,您可以根据需要将其写入新的txt文件中。