应用错误收集

如何识别和删除垃圾字符？

时间：2018-12-16 03:44:42

标签： python utf-8 text-processing pdftotext mojibake

我有一个中文文本文件，在好的中文文本之间（从PDF到TXT转换），有很多乱码。

在保持中英文文本完好无损的情况下如何删除乱码？

Here is the shortened version of the file

0 个答案:

没有答案