应用错误收集

我想从pdf文件中提取文本，但是，当我在python中读取文件时，所有文本都会被销毁。它可能是我的文件编码为＆＃39; ISO-8859-1＆＃39;这个版本不代表韩语单词。

例） ss = 'ÂÃÃ ;ivÃÃ±!Ã¼cÃ¸dÂ¶Ã»DÂ¿Ã¼Ã¢ÃÂoÃ·Â»ÃÃ¯wÃÃ¼ÃÃ7ÂoÂ<CÂÂÂ±Ã¼XcÂ¦ÂÂ|ÂlÃ¹0ÃÃÃ²aÂªÃ¥ÃÂ¤iÃ»0ÃÃ²aÂ¢Q2ÃÃ²aÃ' ＆lt; - 当我用＆＃39; ISO-8859-1＆＃39;编码时，它代表这样。

ss.encode('utf-8') ＆lt; - 当我转换为＆＃39; utf-8＆＃39;时，它只表示＆＃39; utf-8＆＃39;单词的版本。

如何阅读ISO-8859-1编码文件？

0 个答案: