一个href捕获

时间:2010-07-17 09:24:43

标签: python html regex beautifulsoup

我正在使用BeautifulSoup来解析一些html。以下是内容:

<tr> 
<th>Your provider:</th> 
<td> 

<img src="/isp_logos/la-la-la.ico" alt=""/> 
 <a href="/isp/SomeProvider"> 
 Provider name </a> 
 &nbsp;
 <a href="http://*/isp-comparer/?isp=000000"> 
 </a> 
</td> 
</tr>

我必须从链接中获取 SomeProvider 文本。我的代码是:

contentSoup = BeautifulSoup(ThatHtml)
print contentSoup.findAll('a', href=re.compile('/isp/(.*)'))

结果是空数组,为什么?也许还有其他方法?

1 个答案:

答案 0 :(得分:0)

根据您发布的代码和输入,我得到了:

[<a href="/isp/SomeProvider">   Provider name </a>]

作为数组的返回。您使用的是最新的3.1.x版BeautifulSoup吗?我实际上遇到了同样的问题,但事实证明我下载了2.x版本的BeautifulSoup,认为2.x意味着它与python 2.x兼容。

假设第一个包含SomeProvider,您可以使用:

contentSoup.a

提取该标签。