无法在dirrectmirror网页上使用beautifulsoup4提取链接

时间:2012-10-23 02:49:58

标签: python web-scraping beautifulsoup

我正在尝试从特定网页中提取链接,例如: http://www.directmirror.com/files/0GR7ZPCY

但它不能作为bs4文档中的示例。谁能指出我的理由?我的代码如下:

import urllib2
from bs4 import BeautifulSoup
response = urllib2.urlopen('http://www.directmirror.com/files/0GR7ZPCY')
html = response.read()
sp = BeautifulSoup(html)
ll = sp.find_all('a')

我得到的'll'变量是空的。

1 个答案:

答案 0 :(得分:0)

编辑:问题似乎是Ubuntu安装BS4 - 卸载并重新安装pip解决了问题


这实际上适用于我使用两种情况(find_all用于BS4和较旧的findAll)。您是否确认自己的sp变量中包含内容?

In [1]: import urllib2

In [2]: from bs4 import BeautifulSoup

In [3]: response = urllib2.urlopen('http://www.directmirror.com/files/0GR7ZPCY')

In [4]: html = response.read()

In [5]: sp = BeautifulSoup(html)

In [6]: ll = sp.find_all('a')

In [7]: ll
Out[7]:
[<a class="twitter-share-button" data-count="vertical" data-via="DirectMirror" href="http://twitter.com/share">Tweet</a>,
 <a href="/"><img alt="logo" border="0" src="/images/logo2.png"/></a>,
 <a href="/register.php" style="color:#ffffff">Register</a>,
 <a href="/login.php" style="color:#ffffff">Login</a>,
 # Continues...