我正在尝试从html代码下面获取href标记。这只是完整html的一部分。
<div class=\"adr\"><a title=\"8632 Open Meadow Way, Columbia, MD\" href=\"\/homedetails\/8632-Open-Meadow-Way-Columbia-MD-21045\/37058296_zpid\/\">8632 Open Meadow Way, Columbia, MD<\/a><\/div>
我尝试了很多方法,但没有运气。我正在寻找正则表达式。
请帮帮我。
答案 0 :(得分:2)
/href=\\"(.*?)\\"/ //substring should be capture group 1.
编辑:但如果数据中有双引号怎么办?是双引号呢?然后你可以试试这个:
/href=\\"(""|.*?)\\"/
答案 1 :(得分:1)
href
不是标签,而是属性。其次,对于所有这些都是神圣的,不要使用正则表达式来解析HTML,这就是DOM的用途。您没有指定使用的语言,如果它是Javascript,则使用的正确函数是element.getAttribute()。
答案 2 :(得分:0)
当然,就是这个(根据你的平台,有任何必要的逃脱)。关键是*之后的最小量化量词,否则它将消耗到最后一个可能的报价。
a\s+href="(.*?)"