独自替换商标符号(™)

时间:2019-06-28 15:09:50

标签: python regex

我正尝试删除商标符号(™),但仅在不带其他任何符号的情况下,例如,我可能会有’,这是引号(')的错误编码,因此我没有想要删除商标符号(™),然后取消我用来用引号替换xx™的模式。

dict = {};

chars = {
    '\xe2\x84\xa2': '', # ™
    '\xe2\x80\x99': "'", # ’
        }

def stats_change(char, number):
  if dict.has_key(char):
    dict[char] = dict[char]+number
  else:
    dict[char] = number # Add new entry

def replace_chars(match):
  char = match.group(0)
  stats_change(char,1)

  return chars[char]

i, nmatches = re.subn("(\\" + '|\\'.join(chars.keys()) + ")", replace_chars, i)
count_matches += nmatches

输入:foo™ oof
输出:foo oof

输入:o’f oof
输出:o'f oof

有什么建议吗?

0 个答案:

没有答案