如何使用python中的单个正则表达式从推文中提取所有单词?

时间:2017-06-08 01:14:24

标签: python regex python-2.7 twitter

我尝试了下面的代码,但这个表达式只找到一个单词 请提出一些方法来获得预期的输出。

import re
tweet = 'RT @marcobonzanini: just an example! :D http://example.com #NLP'
re.findall('(^[a-zA-z]+)\s',tweet)

输出:[' RT']
预期输出= [' RT','只是''''示例']
所以基本上删除网站@ mentions,#hash-tags,emotion

1 个答案:

答案 0 :(得分:0)

我可以使用

匹配输入数据中的所有情况
((RT)|(@[a-z:]*)|(http:\/\/[a-z.]*)|(#[a-zA-Z]*)|( )|(!))|(:D)

这是实时预览:https://regex101.com/r/xKeFOa/1

让我知道它是否对你有所帮助。