正则表达式从推文中提取关键字

时间:2011-05-11 11:46:04

标签: regex

我正试图在Twitter的推文数据中匹配'apple'。我希望能够将它与主题标签相匹配,因此'apple'的匹配将是:'apple'或'#apple'。

编辑:推文的示例可能是:

  

“今天我要吃一个苹果”

  

“今天我要吃#apple”

我不想匹配:

  

“今天我要吃很多东西   苹果“

我设法使用以下\s#([^ ]*)匹配主题标签,如何使主题标签可选?

最终我需要创建两个变体,一个用于区分大小写,一个用于区分大小写。

3 个答案:

答案 0 :(得分:2)

要匹配apple而不是apples,请在末尾插入字边界:

#?apple\b

答案 1 :(得分:1)

您可以通过附加问号来使哈希值可选:

\s#?([^ ]*)

答案 2 :(得分:0)

由于主题标签是可选的,您可能还需要在“apple”之前加上单词边界:

#?\bapple\b