Python:删除软连字符

时间:2013-09-06 21:16:36

标签: python html

在html文件中,我有包含软连字符的单词,例如

"Schilde rung"
repr(word) = "Schilde\\xc2\\xadrung"

如何删除它们?

由于我的文件还包含umlaute和其他特殊字符,因此可打印或使用words.decode('ascii', 'ignore')的解决方案并不是非常好......

我已经尝试使用words.replace('\xc2\xad', '');但这没用。

感谢您的帮助:)

1 个答案:

答案 0 :(得分:4)

您无法在列表中运行replace;你需要在列表的每个成员上运行它:

words = ["Hello", "Schilde\xc2\xadrung"]
words = [word.replace('\xc2\xad', '') for word in words]
print repr(words)
# Prints ['Hello', 'Schilderung']