处理本地保存的HTML文件中的相对URL

时间:2016-02-09 18:45:17

标签: python html url web-scraping relative-path

当使用urllib2this之类的页面内容存储到磁盘时:

url = 'https://huddlebuy.workable.com/jobs/194756'
response = urllib2.urlopen(url)
content = response.read()
with open('spec.html', 'w') as spec:
    print >>spec, content

当在浏览器中打开spec.thml时,我们可以看到链接背后的URL,例如:

enter image description here

..正确地转到他们的下属链接(http://www.perkbox.co.uk/,在这种情况下)。但是相对URL,例如/jobs/194756/candidates/new,“应用”按钮的相对URL:

enter image description here

...指向磁盘上的某个位置,显然不存在:

file:///jobs/194756/candidates/new

是否有一种已知的方法可以避免这种情况,而无需手动重建完整的URL(基本URL +相对URL),然后在保存之前在源中进行查找/替换?

0 个答案:

没有答案