我是正则表达式的新手。我需要帮助。
我的HTML源代码是
<a href="http://www.google.com"></a>
<img src ="planets.gif" width="145" height="126" alt="Planets" usemap ="#planetmap">
<map name="planetmap">
<area shape="rect" coords="0,0,82,126" href="http://www.sun.htm" alt="Sun">
<area shape="circle" coords="90,58,3" href="http://www.mercur.htm" alt="Mercury">
<area shape="circle" coords="124,58,8" href="http://www.www.venus.htm" alt="Venus">
</map>
我正在尝试提取所有href链接,例如http://www.google.com。 请帮助。
我的正则表达式
"href=[\\\"\\'](http:\\/\\/|\\.\\/|\\/)?\\w+(\\.\\w+)*(\\/\\w+(\\.\\w+)?)*(\\/|\\?\\w*=\\w*(&\\w*=\\w*)*)?[\\\"\\']"
它会像href="http://www.google.com"
但我只需要链接http://www.google.com
而不href=
答案 0 :(得分:1)
请使用XML解析器来处理这类内容。