我正在使用BeautifulSoup来解析一些html。以下是内容:
<tr>
<th>Your provider:</th>
<td>
<img src="/isp_logos/la-la-la.ico" alt=""/>
<a href="/isp/SomeProvider">
Provider name </a>
<a href="http://*/isp-comparer/?isp=000000">
</a>
</td>
</tr>
我必须从链接中获取 SomeProvider 文本。我的代码是:
contentSoup = BeautifulSoup(ThatHtml)
print contentSoup.findAll('a', href=re.compile('/isp/(.*)'))
结果是空数组,为什么?也许还有其他方法?
答案 0 :(得分:0)
根据您发布的代码和输入,我得到了:
[<a href="/isp/SomeProvider"> Provider name </a>]
作为数组的返回。您使用的是最新的3.1.x版BeautifulSoup吗?我实际上遇到了同样的问题,但事实证明我下载了2.x版本的BeautifulSoup,认为2.x意味着它与python 2.x兼容。
假设第一个包含SomeProvider,您可以使用:
contentSoup.a
提取该标签。