我正尝试删除商标符号(™),但仅在不带其他任何符号的情况下,例如,我可能会有’,这是引号(')的错误编码,因此我没有想要删除商标符号(™),然后取消我用来用引号替换xx™的模式。
dict = {};
chars = {
'\xe2\x84\xa2': '', # ™
'\xe2\x80\x99': "'", # ’
}
def stats_change(char, number):
if dict.has_key(char):
dict[char] = dict[char]+number
else:
dict[char] = number # Add new entry
def replace_chars(match):
char = match.group(0)
stats_change(char,1)
return chars[char]
i, nmatches = re.subn("(\\" + '|\\'.join(chars.keys()) + ")", replace_chars, i)
count_matches += nmatches
输入:foo™ oof
输出:foo oof
输入:o’f oof
输出:o'f oof
有什么建议吗?