当使用urllib2
将this之类的页面内容存储到磁盘时:
url = 'https://huddlebuy.workable.com/jobs/194756'
response = urllib2.urlopen(url)
content = response.read()
with open('spec.html', 'w') as spec:
print >>spec, content
当在浏览器中打开spec.thml时,我们可以看到链接背后的URL,例如:
..正确地转到他们的下属链接(http://www.perkbox.co.uk/,在这种情况下)。但是相对URL,例如/jobs/194756/candidates/new
,“应用”按钮的相对URL:
...指向磁盘上的某个位置,显然不存在:
file:///jobs/194756/candidates/new
是否有一种已知的方法可以避免这种情况,而无需手动重建完整的URL(基本URL +相对URL),然后在保存之前在源中进行查找/替换?