python3编码替换unicode字符

时间:2017-05-15 14:23:48

标签: python python-3.x unicode python-unicode

根据文档,以下命令

FileInputStream propFile;
try {
    propFile = new FileInputStream(new File("dbinterface.properties"));
} catch (FileNotFoundException e) {
    propFile = new FileInputStream(new File("resources/dbinterface.properties"));
}
Properties p = new Properties();
p.load(propFile);
propFile.close();

应该给我字节序列'Brückenspinne'.encode("utf-8",errors='replace') 。但是,unicode字符不会被替换,但仍会编码:

b'Br??ckenspinne'

你能告诉我我是如何实际消除unicode字符的吗? (我使用replace作为测试目的,我打算稍后使用b'Br\xc3\xbcckenspinne' 。说实话,我想将unicode字符转换为它们的xmlcharref,将所有内容保存为字符串。)

谢谢。

1 个答案:

答案 0 :(得分:2)

utf-8编码可以代表字符ü;没有替代品。

使用不能代表该字符的其他编码。例如ascii

>>> 'Brückenspinne'.encode("ascii", errors='replace')
b'Br?ckenspinne'

>>> 'Brückenspinne'.encode("ascii", errors='xmlcharrefreplace')
b'Brückenspinne'