Question

我正在使用BeautifulSoup来解析一些html。以下是内容：

<tr> 
<th>Your provider:</th> 
<td> 

<img src="/isp_logos/la-la-la.ico" alt=""/> 
 <a href="/isp/SomeProvider"> 
 Provider name </a> 
 &nbsp;
 <a href="http://*/isp-comparer/?isp=000000"> 
 </a> 
</td> 
</tr>

我必须从链接中获取 SomeProvider 文本。我的代码是：

contentSoup = BeautifulSoup(ThatHtml)
print contentSoup.findAll('a', href=re.compile('/isp/(.*)'))

结果是空数组，为什么？也许还有其他方法？

Answer 1

根据您发布的代码和输入，我得到了：

[<a href="/isp/SomeProvider">   Provider name </a>]

作为数组的返回。您使用的是最新的3.1.x版BeautifulSoup吗？我实际上遇到了同样的问题，但事实证明我下载了2.x版本的BeautifulSoup，认为2.x意味着它与python 2.x兼容。

假设第一个包含SomeProvider，您可以使用：

contentSoup.a

提取该标签。

一个href捕获

1 个答案: