在python中使用urljoin加入url

时间:2015-03-02 20:06:47

标签: python urllib urlparse

我正在尝试进行一些网络抓取,但我在加入亲戚和根网址时遇到了一些问题

例如根网址为:http://www.jmlr.org/proceedings/papers/v2

,相对网址为:../v2/meila07a/meila07a.pdf

因为我在urlparse中使用urljoin:结果是奇数:

http://www.jmlr.org/proceedings/v2/meila07a/meila07a.pdf

哪个不是有效链接。有人可以帮我吗?

1 个答案:

答案 0 :(得分:0)

两个点(..)表示在层次结构中返回一次,将第二个链接更改为./v2/meila07a/meila07a.pdf,它应该正常工作。

或者您也可以将根目录更改为http://www.jmlr.org/proceedings/papers/v2/,由于此更改,它将不再在最后处置v2,因为根目录未设置为正确的目录。