应用错误收集

我们正和我的女朋友一起做下面的regexp事情。这是整个代码，但唯一的问题是没有识别utf-8波兰字符。你知道我们应该怎么做吗？如果给定的数据不充分，我会更新这篇文章。

#!/usr/bin/python2
# -*- coding: utf-8 -*-
import re
import sys
import os
pattern= u"^((([A-Z]|Ć|Ł|Ś|Ź|Ż)([a-z]|ą|ć|ę|ł|ń|ó|ś|ź|ż)*[^a]) ([A-Z]|Ć|Ł|Ś|Ź|Ż)(([a-z]|ą|ć|ę|ł|ń|ó|ś|ź|ż)+))"

for line in sys.stdin:
    #line=line.encode("utf-8")

    #line=unicode(line,"utf-8")
    match = re.search(pattern, line,re.UNICODE)
    if match:
            print match.group(2)
    else:
            print 'no'

问题是与国家角色的线条，如：Paweł被视为他们不在那里。

Python正则表达式，utf-8字符无法正常工作

0 个答案: