为什么我的汤是空的?

时间:2013-07-29 21:02:34

标签: python html parsing beautifulsoup

我正在尝试获取class ='profile-search-school-link'的所有网址,但甚至无法获得汤对象。

我执行以下操作:

site = "http://www.geteducated.com/profiles/search/Computer%20Science%20%26%20IT&SS=Search%20by%20Subject%20%3E%20Computer%20Science%20%26%20IT/?start=15"

""" gets a list of the urls for the degree programs """
r = requests.get(site)
html_source = r.text
soup = BeautifulSoup(html_source)

print(soup.prettify())

输出:

<class 'bs4.BeautifulSoup'> # print statement
[] # my depressingly empty soup
  1. 代码怎么了?粘贴到浏览器后,链接不会中断。

  2. 如何获取网址?

1 个答案:

答案 0 :(得分:1)

我不了解你,但对我而言,这个链接已被打破 - 这可能是你的第一个问题;)

我收到错误代码500回复


嗯所以它在我第一次没有“开始”的基础网址之后就可以了。

啊,我认为这是因为在您第一次访问网站后,它会将内容存储在您的本地存储中 - 例如饼干。除非你启用cookies,否则美丽的汤不能这样做;)

我建议使用CookieLib