应用错误收集

BeautifulSoup是否了解相对URL？

时间：2012-10-25 21:17:00

标签： python beautifulsoup urllib2

我正在尝试搜索使用大量相对网址的网站。一个存档页面包含指向许多单个条目的链接，但URL的名称类似于“../ 2011 / category / example.html”

对于每个条目，我想打开页面并刮掉它，但我不确定最有效的方法是什么。我正在考虑将起始URL拆分为“/”，弹出最后一项并重新加入它们，以获取基本URL。

但是，这看起来像是一块混合物。有更清洁的方式吗？

1 个答案:

答案 0 :(得分：4)

要从相对网址构建绝对网址，请使用urlparse.urljoin（docs here）。

但是，如果您使用mechanize之类的浏览系统进行抓取，则可以直接获取绝对网址，然后在此之后提供浏览器相对网址。浏览器将跟踪状态并自动从与前一个请求相同的域中获取URL。