Question

我使用Python和lxml库来解析保存的网页。

已保存网页的docinfo显示已保存网页的磁盘位置。

storedHtmlDoc.docinfo.URL

有没有办法从保存的页面中提取原始URl？

Answer 1

如果您没有自己存储下载页面的URL，则无法使用。

如果您可以控制下载过程，您可以将下载页面的URL放在页面的META标记内。