我希望得到一条不提及的推文(以@开头)或主题标签(以#开头)。
我的代码就像:
import re
pattern=r'(?u)\b\w\w+\b'
pattern=re.compile(pattern)
pattern.findall('this is a tweet #hashtag @mention')
这个正则表达式的结果是 这是推文标签提及
但我不希望结果中包含主题标签和提及。 我希望结果是:
这是推文
请注意,我不能使用空格而不是\ b,因为输出为 。这是推文(注意开头的。) 也应该是 [this,is,a,tweet] \ b强制单词的开头为任何非字母数字,但如果我使用\ s,则此不会出现在结果中。
答案 0 :(得分:1)
答案 1 :(得分:0)
如果您对regex
以外的解决方案持开放态度,那么您可以使用filter
和lambda
函数来获得所需的结果。
a = 'this is a tweet #hashtag @mention'
" ".join(filter(lambda x:x[0]!='#' and x[0]!='@' , a.split()))
'这是推文'