应用错误收集

执行以下操作的正确方法是什么：

接受任何unicode字符串（将从包含utf-8编码字符串的文件中读取该字符串）
如果字符串包含\ xA0 \ xB0形式的文字转义符（序列）（因此在Python中将显示为\ xA0 \ XB0），请使用实际字符或某些备用字符（例如空格）替换它们无效的代码
如果字符串包含\ u0008形式的文字unicode字符转义符（因此在python中将显示为\ u0008），请替换为该代码表示的实际字符
如果字符串包含\ n或\ t形式的python字符串转义符（因此在python中将显示为\ n和\ t），请替换为该代码表示的实际字符
作为奖励，还要替换格式为＆＃a0;的所有HTML实体。
所有实际的unicode字符应保持不变

基本上，当人们以错误的方式创建文件时，有时会转换回所有垃圾的某种东西，现在它包含文字转义符而不是这些转义符表示的代码。

这可以解决GOT问题，但我能找到的只是笨拙且不完整的解决方案。