使用RegEx在结果中包含匹配的A-Z

时间:2011-12-12 19:05:45

标签: regex parsing html-parsing

我正在尝试使用正则表达式进行解析      标签。我的正则表达式几乎和我需要的一样,只有一个小问题。问题是,正则表达式不包括它找到的匹配的第一个字母。我会告诉你我的意思......首先,这是我现在正在使用的正则表达式:

(?<=h1.*\>[a-zA-Z0-9])(.*?)(?=\<\/)

然后让我说要解析的HTML代码      标签看起来像这样:

<h1 align="center"><strong><font color="#FF0000">I'm an H1 Tag!!</font></strong></h1>

我正在使用的正则表达式与以上HTML代码匹配:

是H1标签!!

正如你所看到的,它将遗漏比赛的第一部分(“我是”中的“我”)。

所以我的问题是,我怎样才能使用我迄今为止所使用的正则表达式来匹配我设置的方式,但是要包含它找到的第一个字母或数字(如果找到的那个)?

1 个答案:

答案 0 :(得分:0)

我认为你应该在括号中加入第一个字母

(?<=h1.*\>([a-zA-Z0-9]).*?)(?=\<\/)