推文中有一个符号:“
“@ BrownieSWP:高是s *** ????”你喜欢12 tf
符号不是"
。我写这个正则表达式来匹配它:
re.sub('(“|”)', '"', tweet)
这个正则表达式(“|”)
用于崇高的文本。但它在python中不起作用。
答案 0 :(得分:3)
您复制/粘贴的字符是U+201C“LEFT DOUBLE QUOTATION MARK”。在re.sub()
中,您还有相应的右引号U+201D。也许您尝试粘贴它的环境未设置为正确处理Unicode,并将其转换为其他编码。 (另见How do I see the current encoding of a file in Sublime Text 2?)
你总是可以明确地使用Python的转义码,并且ASCII兼容地引用Unicode字符; re.sub(u'[\u201c\u201d]', '', tweet)
答案 1 :(得分:1)
它对我有用,
>>> s = r"“@BrownieSWP: High is s***????” you like 12 tf"
>>> m = re.sub(r'[”“]', r'', s)
>>> m
'@BrownieSWP: High is s***???? you like 12 tf'