Python正则表达式,utf-8字符无法正常工作

时间:2015-01-07 21:13:09

标签: python regex utf-8

我们正和我的女朋友一起做下面的regexp事情。这是整个代码,但唯一的问题是没有识别utf-8波兰字符。你知道我们应该怎么做吗?如果给定的数据不充分,我会更新这篇文章。

#!/usr/bin/python2
# -*- coding: utf-8 -*-
import re
import sys
import os
pattern= u"^((([A-Z]|Ć|Ł|Ś|Ź|Ż)([a-z]|ą|ć|ę|ł|ń|ó|ś|ź|ż)*[^a]) ([A-Z]|Ć|Ł|Ś|Ź|Ż)(([a-z]|ą|ć|ę|ł|ń|ó|ś|ź|ż)+))"

for line in sys.stdin:
    #line=line.encode("utf-8")

    #line=unicode(line,"utf-8")
    match = re.search(pattern, line,re.UNICODE)
    if match:
            print match.group(2)
    else:
            print 'no'

问题是与国家角色的线条,如:Paweł被视为他们不在那里。

0 个答案:

没有答案