正则表达式 - 从HTML中提取img src

时间:2013-03-18 18:06:40

标签: c# html regex image extract

我知道我不应该在HTML中使用正则表达式。 我想从HTML文件中提取图像源,例如:

可能看起来像这样:

<img src = cid:header width="700" height="93" alt="Logo" />
<img src= cid:header width="700" height="93" alt="Logo" />
<img src =cid:header width="700" height="93" alt="Logo" />
<img src=cid:header width="700" height="93" alt="Logo" />

在每种情况下,我都希望得到“cid:header”作为结果。

由于我的正则表达式知识基本上为零,我转向你们。 我需要一个在“src”之后或“=”字符之后接受空格的模式。

SRC [mightBeSpace] = [mightBeSpace] CID:[mustNotBeSpace]

谢谢!

2 个答案:

答案 0 :(得分:2)

^<img src\s?=\s?([^\s]+).*/>$

答案 1 :(得分:2)

“可能是空格”在正则表达式中为\s*,“必须为空格”转换为\S+

使用此信息,您应该能够构建一个正则表达式。如果你不能,请展示你尝试过的东西。