我需要帮助弄清楚为什么我的正则表达式似乎不具有确定性

时间:2013-01-03 12:39:24

标签: python regex

我使用正则表达式从输入文本文件中提取和弦。虽然它在大多数情况下都可以在某个文件上失败。

这是我的正则表达式代码:

def getChordMatches(line):
    import re

    notes = "[ABCDEFG]";
    accidentals = "(?:#|##|b|bb)?";
    chords = "(?:maj|min|m|sus|aug|dim)?"
    additions = "[0-9]?"
    chordFormPattern = notes + accidentals + chords + additions
    fullPattern = chordFormPattern + "(?:/%s)?\s" % (notes + accidentals)
    matches = [removeWhitespaces(x) for x in re.findall(fullPattern, line)]
    positions = [x.start() for x in re.finditer(fullPattern, line)]

    return matches, positions

这是工作时的结果:

    line:      Em             C  C/B
 matches: [u'Em', u'C', u'C/B']
position: [5, 20, 23]

此行来自无法产生正确结果的文件:

    line:   Am           Am/G       D7/F#                 Fmaj7
 matches: [u'Fmaj7']
position: [48]

我应该从哪里开始挖掘?编码,特殊字符,标签,......?

修改

以上输出来自:

line = unicode(l, encoding='utf-8') 
matches, positions = getChordMatches(line) 
print '    line:', line 
print ' matches:', matches 
print 'position:', positions

修改

完整的正则表达式模式是:

[ABCDEFG](?:#|##|b|bb)?(?:maj|min|m|sus|aug|dim)?[0-9]?(?:/[ABCDEFG](?:#|##|b|bb)?)?\s

修改

失败线的hexdump(我认为):

hexdump -s 45 -n 99 input.txt 
000002d 20 41 6d 20 20 20 20 20 20 20 20 20 20 41 6d 2f 
000003d 47 20 c2 a0 20 20 20 20 20 20 44 37 2f 46 23 20 
000004d 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 
000005d 46 6d 61 6a 37 0a 49 20 6c 6f 6f 6b 20 61 74 20 
000006d 79 6f 75 20 61 6c 6c 20 73 65 65 20 74 68 65 20 
000007d 6c 6f 76 65 20 74 68 65 72 65 20 74 68 61 74 27 
000008d 73 20 73 
0000090

修改

正如在接受的答案中提到的那样,它是由不间断的空间引起的。使用line = unicode(l, encoding='utf-8').replace(u"\u00A0", " ")解决了问题。

2 个答案:

答案 0 :(得分:3)

我怀疑问题与以下两个字节有关:

000003d 47 20 c2 a0 20 20 ...

这似乎是UTF-8编码的非破坏空间(U + 00A0)。如果这正在掀起你的正则表达式,我不会感到惊讶。

答案 1 :(得分:-2)

我认为问题是你在正弦表达式需要一个空格字符时,在和弦之后给出一个与\ s不匹配的字符。在任何情况下,正则表达式都是错误的,因为它需要在最后一个和弦之后有空格。

尝试使用\ b而不是\ s

(评论后编辑)