编码存在问题(\ udbff,\ udc13,\ udc02,\ udc00,\ udc06)。我尝试过在线查看并尝试以下
print('\udc13'.encode('utf8','surrogateescape'))
这会导致以下错误:
UnicodeEncodeError:'utf-8'编解码器无法在位置0编码字符'\ udc13':不允许替代
关于如何避免此范围的任何建议。我一直在寻找新的东西,因此使用正则表达式逃避每个人似乎不是可持续的解决方案。
答案 0 :(得分:-1)
我不得不逃脱整个范围u"([\udc00-\udc69])|"
才能最终获得成功。我想我可能应该将其扩展为udcff或使其更完整的内容!