Question

我正在尝试使用RegexpTokenizer对文本进行标记。

代码：

from nltk.tokenize import RegexpTokenizer
#from nltk.tokenize import word_tokenize

line = "U.S.A Count U.S.A. Sec.of U.S. Name:Dr.John Doe J.Doe 1.11 1,000 10--20 10-20"
pattern = '[\d|\.|\,]+|[A-Z][\.|A-Z]+\b[\.]*|[\w]+|\S'
tokenizer = RegexpTokenizer(pattern)

print tokenizer.tokenize(line)
#print word_tokenize(line)

输出：

[＆＃39; U＆＃39;＆＃39;。＆＃39;，＆＃39; S＆＃39;，＆＃39;。＆＃39;，＆＃39; A＆＃39; ，＆＃39; Count＆＃39;，＆＃39; U＆＃39;，＆＃39;。＆＃39;，＆＃39; S＆＃39;，＆＃39;。＆＃39;，＆＃ 39; A＆＃39;，＆＃39;。＆＃39;，＆＃39; Sec＆＃39;，＆＃39;。＆＃39;，＆＃39;＆＃39;，＆＃39; U＆＃39;，＆＃39;。＆＃39;，＆＃39; S＆＃39;，＆＃39;。＆＃39;，＆＃39;名称＆＃39;，＆＃39;：＆＃39; ，＆＃39; Dr＆＃39;，＆＃39;。＆＃39;，＆＃39; John＆＃39;，＆＃39; Doe＆＃39;，＆＃39; J＆＃39;，＆＃ 39;。＆＃39;，＆＃39; Doe＆＃39;，＆＃39; 1.11＆＃39;，＆＃39; 1,000＆＃39;，＆＃39; 10＆＃39;，＆＃39; - ＆＃39;，＆＃39; - ＆＃39;，＆＃39; 20＆＃39;，＆＃39; 10＆＃39;，＆＃39; - ＆＃39;，＆＃39; 20＆＃ 39]

预期输出：

[＆＃39; USA＆＃39;，＆＃39; Count＆＃39;，＆＃39; USA＆＃39;，＆＃39; Sec＆＃39;，＆＃39;。＆＃39; ，＆＃39; of＆＃39;，＆＃39; US＆＃39;，＆＃39; Name＆＃39;，＆＃39;：＆＃39;，＆＃39; Dr＆＃39;，＆＃39;。＆＃39;，＆＃39; John＆＃39;，＆＃39; Doe＆＃39;，＆＃39; J。＆＃39;，＆＃39; Doe＆＃39;，＆＃39; ; 1.11＆＃39;，＆＃39; 1,000＆＃39;，＆＃39; 10＆＃39;，＆＃39; - ＆＃39;，＆＃39; - ＆＃39;，＆＃39; 20＆＃39;，＆＃39; 10＆＃39;，＆＃39; - ＆＃39;，＆＃39; 20＆＃39;]

为什么令牌者也会掠过我预期的代币？＃34; U.S.A＆＃34; ，＆＃34;美国＆＃34;？我该如何解决这个问题？

我的正则表达式：https://regex101.com/r/dS1jW9/1

Answer 1

关键是您的\b是退格符，您需要使用原始字符串文字。此外，你在字符类中有文字管道，这也会弄乱你的输出。

这可以按预期工作：

>>> pattern = r'[\d.,]+|[A-Z][.A-Z]+\b\.*|\w+|\S'
>>> tokenizer = RegexpTokenizer(pattern)
>>> print(tokenizer.tokenize(line))

['U.S.A', 'Count', 'U.S.A.', 'Sec', '.', 'of', 'U.S.', 'Name', ':', 'Dr', '.', 'John', 'Doe', 'J.', 'Doe', '1.11', '1,000', '10', '-', '-', '20', '10', '-', '20']

请注意，将单个\w放入字符类是没有意义的。此外，您不需要在字符类中转义每个非单词字符（如点），因为它们在那里主要被视为文字字符（仅^，]，-并且\需要特别注意。）

Answer 2

如果修改你的正则表达式

pattern = '[USA\.]{4,}|[\w]+|[\S]'

然后

pattern = '[USA\.]{4,}|[\w]+'
tokenizer = RegexpTokenizer(pattern)
print (''+str(tokenizer.tokenize(line)))

您可以获得所需的输出

['U.S.A', 'Count', 'U.S.A.', 'Sec', '.', 'of', 'U.S.', 'Name', ':', 'Dr', '.', 'John', 'Doe', 'J', '.', 'Doe', '1', '.', '11', '1', ',', '000', '10', '-', '-', '20', '10', '-', '20']

NLTK - nltk.tokenize.RegexpTokenizer - 正则表达式无法按预期工作

2 个答案: