java中的正则表达式从HTML中提取URl

时间:2013-05-24 08:55:33

标签: regex

我是正则表达式的新手。我需要帮助。

我的HTML源代码是

<a  href="http://www.google.com"></a>
<img src ="planets.gif" width="145" height="126" alt="Planets" usemap ="#planetmap">
<map name="planetmap">
<area shape="rect" coords="0,0,82,126" href="http://www.sun.htm" alt="Sun">
<area shape="circle" coords="90,58,3" href="http://www.mercur.htm" alt="Mercury">
<area shape="circle" coords="124,58,8" href="http://www.www.venus.htm" alt="Venus">
</map>

我正在尝试提取所有href链接,例如http://www.google.com。 请帮助。

我的正则表达式

"href=[\\\"\\'](http:\\/\\/|\\.\\/|\\/)?\\w+(\\.\\w+)*(\\/\\w+(\\.\\w+)?)*(\\/|\\?\\w*=\\w*(&\\w*=\\w*)*)?[\\\"\\']"

它会像href="http://www.google.com"

一样提取

但我只需要链接http://www.google.com而不href=

1 个答案:

答案 0 :(得分:1)

请使用XML解析器来处理这类内容。