unicode findall python

时间:2012-05-16 13:25:46

标签: python regex

我有一个英语语言的工作模式,但是因为我的母语不起作用而且让我很头疼。首先,我打开了许多关于编码的问题,我知道我低估了它,这是一个大问题。我花了一些时间阅读它,问题仍然存在。所以现在我正面临一个正则表达问题。所以模式是:

exactMatch = re.compile(r"([^\.]*\bтурција\b[^\.]*)\.", re.UNICODE)
print exactMatch.pattern
result= exactMatch.findall("турција е на врвот од индустријата. турција е на врвот од индустријата.")

适用于英语。它的功能是给我一个段落中的所有句子。那么有什么建议吗?

我也尝试过编码和解码,但注意到编码错误除外。

1 个答案:

答案 0 :(得分:6)

这将有效:

exactMatch = re.compile(ur"([^\.]*\bтурција\b[^\.]*)\.", re.UNICODE)
print exactMatch.pattern
result= exactMatch.findall(u"турција е на врвот од индустријата. турција е на врвот од индустријата.")

如果你使用unicode,那么使用 unicode。