如何识别和删除垃圾字符?

时间:2018-12-16 03:44:42

标签: python utf-8 text-processing pdftotext mojibake

我有一个中文文本文件,在好的中文文本之间(从PDF到TXT转换),有很多乱码。

在保持中英文文本完好无损的情况下如何删除乱码?

Here is the shortened version of the file

0 个答案:

没有答案