在Python中,我正在解析各种URL,以便在返回文档的正文中找到一些元素。我正在使用lxml,如下所示:
import lxml.html as html
url = 'http://www.linktowebsite.com'
data = html.parse(url)
for d in data.xpath('body'):
code code code
但是有些网址会重定向到其他网页,我想知道重定向后的当前网址。我没有在lxml的文档中找到任何关于此的内容。
如何找到已解析/重定向页面的当前URL?
答案 0 :(得分:4)
使用data.docinfo.URL
documentation
示例:
In [22]: data = html.parse('http://httpbin.org/redirect/2')
In [23]: data.docinfo.URL
Out[23]: u'http://httpbin.org/get'