Question

在从相对URL构造绝对URL时，是否有办法解释“无效”父目录，或者我应该只使用.replace()？

>>> from urlparse import urljoin
>>> url = urljoin('http://www.example.com/path/', '../../../index.html')
>>> url
'http://www.example.com/../../index.html'
>>> url.replace('../', '')
'http://www.example.com/index.html'

更好的是，在使用Python进行抓取时，是否有更清洁的方法来清理URL？

Answer 1

正如你所说，这没有意义。您可以从根目录更高。因此，在不知道作者意图的情况下，将第二部分规范化很困难。只有你知道如何正确消毒它。：）

urlparse.urljoin（）不处理无效的父目录

1 个答案: