我正在尝试搜索使用大量相对网址的网站。一个存档页面包含指向许多单个条目的链接,但URL的名称类似于“../ 2011 / category / example.html”
对于每个条目,我想打开页面并刮掉它,但我不确定最有效的方法是什么。我正在考虑将起始URL拆分为“/”,弹出最后一项并重新加入它们,以获取基本URL。
但是,这看起来像是一块混合物。有更清洁的方式吗?答案 0 :(得分:4)
要从相对网址构建绝对网址,请使用urlparse.urljoin
(docs here)。
但是,如果您使用mechanize
之类的浏览系统进行抓取,则可以直接获取绝对网址,然后在此之后提供浏览器相对网址。浏览器将跟踪状态并自动从与前一个请求相同的域中获取URL。