我们正和我的女朋友一起做下面的regexp事情。这是整个代码,但唯一的问题是没有识别utf-8波兰字符。你知道我们应该怎么做吗?如果给定的数据不充分,我会更新这篇文章。
#!/usr/bin/python2
# -*- coding: utf-8 -*-
import re
import sys
import os
pattern= u"^((([A-Z]|Ć|Ł|Ś|Ź|Ż)([a-z]|ą|ć|ę|ł|ń|ó|ś|ź|ż)*[^a]) ([A-Z]|Ć|Ł|Ś|Ź|Ż)(([a-z]|ą|ć|ę|ł|ń|ó|ś|ź|ż)+))"
for line in sys.stdin:
#line=line.encode("utf-8")
#line=unicode(line,"utf-8")
match = re.search(pattern, line,re.UNICODE)
if match:
print match.group(2)
else:
print 'no'
问题是与国家角色的线条,如:Paweł被视为他们不在那里。