BeautifulSoup是否了解相对URL?

时间:2012-10-25 21:17:00

标签: python beautifulsoup urllib2

我正在尝试搜索使用大量相对网址的网站。一个存档页面包含指向许多单个条目的链接,但URL的名称类似于“../ 2011 / category / example.html”

对于每个条目,我想打开页面并刮掉它,但我不确定最有效的方法是什么。我正在考虑将起始URL拆分为“/”,弹出最后一项并重新加入它们,以获取基本URL。

但是,这看起来像是一块混合物。有更清洁的方式吗?

1 个答案:

答案 0 :(得分:4)

要从相对网址构建绝对网址,请使用urlparse.urljoindocs here)。

但是,如果您使用mechanize之类的浏览系统进行抓取,则可以直接获取绝对网址,然后在此之后提供浏览器相对网址。浏览器将跟踪状态并自动从与前一个请求相同的域中获取URL。