Python正则表达式和标记化

时间:2014-02-05 02:39:34

标签: python regex tokenize

我有一个字符串“A.B.C一二三”。

我有一个任务要将此字符串标记为[“A.B.C”,一,二,三],忽略句子末尾的句号。我无法在句子结束时删除句点,而不会干扰A.B.C的首字母缩略词。

有没有办法让我在句子结尾处删除句点,而不会影响使用python正则表达式的首字母缩写词?

2 个答案:

答案 0 :(得分:2)

word = re.compile(r'[A-Za-z.]*[A-Za-z]')
word.findall("A.B.C one two three.")    # => ['A.B.C', 'one', 'two', 'three']

答案 1 :(得分:0)

line= "A.B.C one two three."
print line[:-1].split(' ')

也可能是这种方式