我想从pdf文件中提取文本,但是,当我在python中读取文件时,所有文本都会被销毁。 它可能是我的文件编码为' ISO-8859-1'这个版本不代表韩语单词。
例)
ss = 'ÂÃà ;ivÃñ!ücød¶ûD¿üâÃÂo÷»ÃïwÃüÃÃ7ÂoÂ<C±üXc¦ÂÂ|Âlù0ÃÃòaªåäiû0Ãòa¢Q2ÃòaÃ'
&lt; - 当我用&#39; ISO-8859-1&#39;编码时,它代表这样。
ss.encode('utf-8')
&lt; - 当我转换为&#39; utf-8&#39;时,它只表示&#39; utf-8&#39;单词的版本。