执行以下操作的正确方法是什么:
- 接受任何unicode字符串(将从包含utf-8编码字符串的文件中读取该字符串)
- 如果字符串包含\ xA0 \ xB0形式的文字转义符(序列)(因此在Python中将显示为\ xA0 \ XB0),请使用实际字符或某些备用字符(例如空格)替换它们无效的代码
- 如果字符串包含\ u0008形式的文字unicode字符转义符(因此在python中将显示为\ u0008),请替换为该代码表示的实际字符
- 如果字符串包含\ n或\ t形式的python字符串转义符(因此在python中将显示为\ n和\ t),请替换为该代码表示的实际字符
- 作为奖励,还要替换格式为&#a0;的所有HTML实体。
- 所有实际的unicode字符应保持不变
基本上,当人们以错误的方式创建文件时,有时会转换回所有垃圾的某种东西,现在它包含文字转义符而不是这些转义符表示的代码。
这可以解决GOT问题,但我能找到的只是笨拙且不完整的解决方案。