正则表达式在HTML文档中的图像标记中查找第一个图像

时间:2011-07-07 15:36:21

标签: regex web-scraping

在HTML文档中的图像标记中查找第一个图像的正则表达式是什么?我以前的尝试没有真正起作用,因为它们刚刚基于.jpg"进行匹配,并没有考虑边缘情况,例如在最后(asdf.jpg?581291823

编辑:我正在使用Node.js.我想做HTML解析,但我们有很多要解析的文档,所以我不确定HTML解析是否是最佳选择,因为它需要相当多的时间。

3 个答案:

答案 0 :(得分:3)

答案 1 :(得分:3)

答案 2 :(得分:0)

抓取HTML,一个简单且非常宽松的正则表达式将是:/\<img.*?src="(.*?)"/

使用真正的DOM解析器当然是首选方法。