Python 2.7 Regex Tokenizer实现不起作用

时间:2017-06-24 13:19:15

标签: regex python-2.7 tokenize

我创建了一个正则表达式来匹配德语text中的标记string类型的标记。

我的正则表达式使用regex101.com按预期工作。这是我的正则表达式与一个例句的链接:My regex + example on regex101.com

所以我在python 2.7中实现了这样:

GERMAN_TOKENIZER = r'''(?x) # set flag to allow verbose regex
([A-ZÄÖÜ]\.)+  # abbrevations including ÄÖÜ
|\d+([.,]\d+)?([€$%])? # numbers, allowing commas as seperators and € as currency
|[\wäöü]+ # matches normal words
|\.\.\. # ellipsis
|[][.,;\"'?():-_'!] # matches special characters including !
'''

def tokenize_german_text(text):
    '''
        Takes a text of type string and 
        tokenizes the text
    '''
    matchObject = re.findall(GERMAN_TOKENIZER, text)
    pass

tokenize_german_text(u'Das ist ein Deutscher Text! Er enthält auch Währungen, 10€')

结果:

result 当我调试这个时,我发现matchObject只是一个包含11个空字符条目的列表。为什么它没有按预期工作,我该如何解决这个问题?

1 个答案:

答案 0 :(得分:1)

re.findall()仅收集捕获组中的匹配项(除非正则表达式中没有捕获组,在这种情况下它会捕获每个匹配项)。

所以你的正则表达式会多次匹配,但每次匹配都是没有捕获组的参与者。删除捕获组,您将看到结果。另外,将-放在字符类的末尾,除非您确实要匹配:_之间的字符范围(但不是-本身):

GERMAN_TOKENIZER = r'''(?x) # set flag to allow verbose regex
(?:[A-ZÄÖÜ]\.)+  # abbrevations including ÄÖÜ
|\d+(?:[.,]\d+)?[€$%]? # numbers, allowing commas as seperators and € as currency
|[\wäöü]+ # matches normal words
|\.\.\. # ellipsis
|[][.,;\"'?():_'!-] # matches special characters including !
'''

结果:

['Das', 'ist', 'ein', 'Deutscher', 'Text', '!', 'Er', 'enthält', 'auch', 'Währungen', ',', '10€']