urlparse.urljoin()不处理无效的父目录

时间:2012-11-29 04:33:18

标签: python url screen-scraping relative-url

在从相对URL构造绝对URL时,是否有办法解释“无效”父目录,或者我应该只使用.replace()

>>> from urlparse import urljoin
>>> url = urljoin('http://www.example.com/path/', '../../../index.html')
>>> url
'http://www.example.com/../../index.html'
>>> url.replace('../', '')
'http://www.example.com/index.html'

更好的是,在使用Python进行抓取时,是否有更清洁的方法来清理URL?

1 个答案:

答案 0 :(得分:0)

正如你所说,这没有意义。您可以从根目录更高。因此,在不知道作者意图的情况下,将第二部分规范化很困难。只有你知道如何正确消毒它。 :)