我希望获得以下构造的正则表达式,其结果如下:
操作 和科幻
<a href="/?genre=Action">Actions</a> <a href="/?genre=Sci-Fi">Sci-Fi</a>
答案 0 :(得分:4)
不要使用正则表达式解析html文件。如果您坚持,那么您可以使用以下正则表达式并从组索引1中获取锚标记内的文本。
<a\s[^<>]*>([^<>]*)<\/a>
<强>解释强>
<a '<a'
\s whitespace (\n, \r, \t, \f, and " ")
[^<>]* any character except: '<', '>' (0 or more
times)
> '>'
( group and capture to \1:
[^<>]* any character except: '<', '>' (0 or
more times)
) end of \1
< '<'
\/ '/'
a> 'a>'