鉴于“大饮料,牛肉哈希,咖啡,墨西哥卷饼”这样的文字,我知道我可以用NLTK的Tweet Tokenizer来标记它,例如产生:
['Great',
'drinks',
',',
'beef',
'hash',
',',
'coffee',
',',
'burritos',
'.']
我想将逗号前面的每个部分和句点分别处理,以生成[Great drinks, beef hash, coffee, burritos]
之类的列表。我该怎么做?
答案 0 :(得分:1)
import re
s= "Great drinks , beef hash, coffee, burritos."
print (re.findall(r"[\w']+", s))
对于带有' - '(连字符)的单词
print (re.findall(r"([\w']+(?:\S-\S)?[\w'])+", s))
答案 1 :(得分:0)
msg = "Great drinks , beef hash, coffee, burritos."
msg.translate(str.maketrans(",.", " ")).split()
完成这项工作。