Python 3:unescape文字十六进制,unicode和python转义

时间:2019-02-27 01:13:24

标签: python-3.x unicode escaping

执行以下操作的正确方法是什么:

  • 接受任何unicode字符串(将从包含utf-8编码字符串的文件中读取该字符串)
  • 如果字符串包含\ xA0 \ xB0形式的文字转义符(序列)(因此在Python中将显示为\ xA0 \ XB0),请使用实际字符或某些备用字符(例如空格)替换它们无效的代码
  • 如果字符串包含\ u0008形式的文字unicode字符转义符(因此在python中将显示为\ u0008),请替换为该代码表示​​的实际字符
  • 如果字符串包含\ n或\ t形式的python字符串转义符(因此在python中将显示为\ n和\ t),请替换为该代码表示​​的实际字符
  • 作为奖励,还要替换格式为&#a0;的所有HTML实体。
  • 所有实际的unicode字符应保持不变

基本上,当人们以错误的方式创建文件时,有时会转换回所有垃圾的某种东西,现在它包含文字转义符而不是这些转义符表示的代码。

这可以解决GOT问题,但我能找到的只是笨拙且不完整的解决方案。

0 个答案:

没有答案