我有推文,我需要找到主题标签的内容。如何隔离和保存变量以“#”开头并以“使用正则表达式”结束的所有内容?我正在使用MatLab。
答案 0 :(得分:5)
当您不熟悉正则表达式时,使用它们可能具有挑战性。
以下是查找主题标签的一种方法:
tweet = 'it is fun to post on #stackoverflow, really';
regexp(tweet,'#(\w+)','tokens','once')
ans =
'stackoverflow'
#(\w+)
做什么?我们使用\w
查看“单词”字符(没有空格,没有标点符号),并指定我们至少需要其中一个+
。这个词必须以#
开头。我们使用括号来指示我们想要返回的部分,以及选项tokens
以便它返回匹配(我不关心主题标签在推文中的位置)。我设置选项once
,以便regexp
只查找一个#标签;如果您期望在推文中使用多个主题标签,请不要这样做,但请注意输出将是字符串的单元格数组。