如何从链接获取完整的URL

时间:2016-02-20 16:39:28

标签: python html url

假设我转到http://www.example.com/dir1/dir2/index.html并且有以下链接:

<a href="/about/">Link</a> <a href="/about">Link</a> <a href="/page.html/">Link</a> <a href="/page.html">Link</a>

我遇到的问题是,我不知道何时应该将哪些部分连接在一起,因为有些部分有斜线,有些则没有,我必须考虑到

http://www.example.com/dir1/dir2/index.html/about/

应该是

http://www.example.com/dir1/dir2/about/

另外,我怎么知道/about是一个目录而不是一个文件? 我将python3.5urllib.request模块一起使用。

1 个答案:

答案 0 :(得分:1)

你可以试试这个 -

base_url = "http://www.example.com/dir1/dir2"
next = "/index.html"

然后,对于每个链接,提取href属性并将其分配给next。每个链接的最终网址为base_url + next