在从相对URL构造绝对URL时,是否有办法解释“无效”父目录,或者我应该只使用.replace()
?
>>> from urlparse import urljoin
>>> url = urljoin('http://www.example.com/path/', '../../../index.html')
>>> url
'http://www.example.com/../../index.html'
>>> url.replace('../', '')
'http://www.example.com/index.html'
更好的是,在使用Python进行抓取时,是否有更清洁的方法来清理URL?
答案 0 :(得分:0)
正如你所说,这没有意义。您可以从根目录更高。因此,在不知道作者意图的情况下,将第二部分规范化很困难。只有你知道如何正确消毒它。 :)