获取已保存网页的原始网址

时间:2013-04-24 08:15:33

标签: python url python-3.x web-scraping lxml

我使用Python和lxml库来解析保存的网页。

已保存网页的docinfo显示已保存网页的磁盘位置。

storedHtmlDoc.docinfo.URL

有没有办法从保存的页面中提取原始URl?

1 个答案:

答案 0 :(得分:1)

如果您没有自己存储下载页面的URL,则无法使用。

如果您可以控制下载过程,您可以将下载页面的URL放在页面的META标记内。