Python正则表达式匹配unicode代码和实际字符

时间:2017-11-12 00:59:06

标签: python regex unicode

我正在尝试匹配此文字,以便在句号和时间段之间放置一个空格。引号标记在" Fraudsec" ...

之后

在Jupyter笔记本中

#to show the output version
text1 = """Mansotte came up with the idea for FraudSec.“I thought"""
text1 = text1.decode("utf-8", "ignore")
print text1

输出

" Mansotte想出了FraudSec的想法。“我想"

也在Jupyter笔记本中

#to show the unicode version
text1

输出

" Mansotte提出了FraudSec的想法。\ u201cI想,"

如果我......

re.sub(u'\u201c', u' ', text1)

我可以使用Unicode代码点(\ u201c)用空格替换unicode引用

输出

" Mansotte想出了FraudSec的想法。我想"

如果我......

re.sub(r'[.]', r' ', s)

我可以用空格替换句点字符

输出

" Mansotte提出了FraudSec想法的想法,"

问题我需要帮助

我无法解决如何将2组合以匹配字符(本例中为句点)和Unicode代码点(" \ u201c"在这种情况下)。

我猜错了

re.sub(ur'([.])([A])', r'\1 \2', s)

这样的事情,但我无法找出替换"([A])的内容以匹配unicde。我尝试过的所有内容都会返回语法错误。请帮忙。 : - )

0 个答案:

没有答案