假设我转到http://www.example.com/dir1/dir2/index.html
并且有以下链接:
<a href="/about/">Link</a>
<a href="/about">Link</a>
<a href="/page.html/">Link</a>
<a href="/page.html">Link</a>
我遇到的问题是,我不知道何时应该将哪些部分连接在一起,因为有些部分有斜线,有些则没有,我必须考虑到
http://www.example.com/dir1/dir2/index.html/about/
应该是
http://www.example.com/dir1/dir2/about/
。
另外,我怎么知道/about
是一个目录而不是一个文件?
我将python3.5
与urllib.request
模块一起使用。
答案 0 :(得分:1)
你可以试试这个 -
base_url = "http://www.example.com/dir1/dir2"
next = "/index.html"
然后,对于每个链接,提取href
属性并将其分配给next
。每个链接的最终网址为base_url + next
。