Question

我尝试了下面的代码，但这个表达式只找到一个单词请提出一些方法来获得预期的输出。

import re
tweet = 'RT @marcobonzanini: just an example! :D http://example.com #NLP'
re.findall('(^[a-zA-z]+)\s',tweet)

输出：[＆＃39; RT＆＃39;]
预期输出= [＆＃39; RT＆＃39;，＆＃39;只是＆＃39;＆＃39;＆＃39;＆＃39;示例＆＃39;]
所以基本上删除网站@ mentions，＃hash-tags，emotion

Answer 1

我可以使用

匹配输入数据中的所有情况

((RT)|(@[a-z:]*)|(http:\/\/[a-z.]*)|(#[a-zA-Z]*)|( )|(!))|(:D)

让我知道它是否对你有所帮助。