如何使用lxml获取Python中已解析HTML页面的当前URL?

时间:2011-12-30 15:49:02

标签: python parsing url lxml

在Python中,我正在解析各种URL,以便在返回文档的正文中找到一些元素。我正在使用lxml,如下所示:

import lxml.html as html

url = 'http://www.linktowebsite.com'
data = html.parse(url)

for d in data.xpath('body'):
    code code code

但是有些网址会重定向到其他网页,我想知道重定向后的当前网址。我没有在lxml的文档中找到任何关于此的内容。

如何找到已解析/重定向页面的当前URL?

1 个答案:

答案 0 :(得分:4)

使用data.docinfo.URL documentation

示例:

In [22]: data = html.parse('http://httpbin.org/redirect/2')

In [23]: data.docinfo.URL
Out[23]: u'http://httpbin.org/get'