我尝试了下面的代码,但这个表达式只找到一个单词 请提出一些方法来获得预期的输出。
import re
tweet = 'RT @marcobonzanini: just an example! :D http://example.com #NLP'
re.findall('(^[a-zA-z]+)\s',tweet)
输出:[' RT']
预期输出= [' RT','只是''''示例']
所以基本上删除网站@ mentions,#hash-tags,emotion
答案 0 :(得分:0)
我可以使用
匹配输入数据中的所有情况((RT)|(@[a-z:]*)|(http:\/\/[a-z.]*)|(#[a-zA-Z]*)|( )|(!))|(:D)
这是实时预览:https://regex101.com/r/xKeFOa/1
让我知道它是否对你有所帮助。