我的字符串包含来自不同语言的字符,如:
en <chars in english> fr <chars in french> es <chars in spanish>
我需要从上面的字符串中提取特定语言的子字符串。我怎么能用python2.6中的正则表达式或其他工具呢?
PS。它可能是不同的顺序,如:en(。)es(。)它(。*),问题是es或fr或它 - 不是拉丁字符集, - 这就是为什么常规正则表达式不能正常使用它
答案 0 :(得分:2)
正则表达式使用unicode,你可以选择几种方法来切割字符串。下面是一个示例,其中字符串在语言代码边界上分割,例如“en”和“es”,并放在列表中。然后是迭代列表并找到你想要的语言。
>>> text = u"en <chars in english> fr <chars in french> es <chars in spanish>"
>>> languages = set((u'en', u'fr', u'es'))
>>> re_languages = '|'.join(languages)
>>> splitter = re.compile(ur'\b({})\b'.format(re_languages))
>>> splitter.split(text)
[u'', u'en', u' <chars in english> ', u'fr', u' <chars in french> ', u'es', u' <chars in spanish>']
>>> parts=splitter.split(text)[1:]
>>> for i in range(0, len(parts),2):
... if parts[i] == 'es':
... print parts[i+1]
...
<chars in spanish>
>>>
或者你可以一次找到一个
>>> re.findall(r'\b(en|es|fr) (.*?)(?:(?= (?:en|es|fr)\b)|$)', text)
[(u'en', u'<chars in english>'), (u'fr', u'<chars in french>'), (u'es', u'<chars in spanish>')]
>>>