正则表达式只选择http:// www超链接的一部分

时间:2013-11-25 20:14:10

标签: python regex

我搜索了论坛,找不到任何可以解决我问题的内容。我试图从超链接中仅检索到网站的链接,例如。

我有68个不同的行:

href="/creditrating/Pages/Home.aspx" class="rmLink">
<span class="rmText">Centre for Credit Rating</span></a></li>
<li class="rmItem "><a href="http://www.creative-growth.eu/" class="rmLink">
<span class="rmText">Creative Growth Project</span></a></li><li class="rmItem ">
<a href="/faculties/health-life-social-sciences/centres/Pages/Placements-Practice-Education-Centre.aspx" class="rmLink">
<span class="rmText">Placements &amp; Practice Education Centre</span></a></li>
<li class="rmItem "><a href="/research/centresandprojects/smartcities/Pages/Smart-Cities.aspx" class="rmLink">
<span class="rmText">Smart Cities</span></a></li>
<li class="rmItem rmLast"><a href="/research/centresandprojects/src/Pages/src.aspx" class="rmLink"><span class="rmText">Scottish Resource Centre for Women in SET</span></a>
</li>

我需要的只是这种情况下的链接http://www.creative-growth.eu/

我想使用正则表达式来做到这一点。你能给我一个代码的解释吗?

2 个答案:

答案 0 :(得分:2)

使用捕获href="(http(s?):\/\/[^"]+)"

的正则表达式

这将捕获链接以及它们是否引用HTTPS站点

答案 1 :(得分:0)

http://[^/]+/

以http://
开头 除了/
之外,取任何字符 以/

结尾