我想从一个网站搜寻URL。最后,目标是要有一个链接/站点地图列表。
某些页面具有相对的<base>
,例如<base href="/">
,而不是更常见的绝对页面,例如<base href="https://example.com/">
。
根据我的理解,这是有效的(请参见https://developer.mozilla.org/en-US/docs/Web/HTML/Element/base)
在我的示例中,wget递归下载无法获取正确的URL:
页面http://example.com/a/b具有一个<base href="/">
和一个链接<a href="c/d">
。 wget将此链接指向http://example.com/a/b/c/d
,而不是http://example.com/c/d
。
您知道我如何在wget中使用相对的基本URL吗?
这是我当前正在使用的命令:
wget --recursive --follow-tags=a,form --adjust-extension --level=inf --no-verbose --output-file="$urlsFilePath" $startUrl