标签: python utf-8 text-processing pdftotext mojibake
我有一个中文文本文件,在好的中文文本之间(从PDF到TXT转换),有很多乱码。
在保持中英文文本完好无损的情况下如何删除乱码?
Here is the shortened version of the file