标签: python url python-3.x web-scraping lxml
我使用Python和lxml库来解析保存的网页。
已保存网页的docinfo显示已保存网页的磁盘位置。
storedHtmlDoc.docinfo.URL
有没有办法从保存的页面中提取原始URl?
答案 0 :(得分:1)
如果您没有自己存储下载页面的URL,则无法使用。
如果您可以控制下载过程,您可以将下载页面的URL放在页面的META标记内。