我正在尝试进行一些网络抓取,但我在加入亲戚和根网址时遇到了一些问题
例如根网址为:http://www.jmlr.org/proceedings/papers/v2
,相对网址为:../v2/meila07a/meila07a.pdf
因为我在urlparse中使用urljoin:结果是奇数:
http://www.jmlr.org/proceedings/v2/meila07a/meila07a.pdf
哪个不是有效链接。有人可以帮我吗?
答案 0 :(得分:0)
两个点(..
)表示在层次结构中返回一次,将第二个链接更改为./v2/meila07a/meila07a.pdf
,它应该正常工作。
或者您也可以将根目录更改为http://www.jmlr.org/proceedings/papers/v2/
,由于此更改,它将不再在最后处置v2
,因为根目录未设置为正确的目录。