我想下载该网站的纯HTML内容:https://www.forbes.com/sites/quora/2018/02/20/what-technology-stack-does-airbnb-use/#c69fd2a4025c
我尝试了一些选项,例如wget -E -H -k -p
。
我注意到,每当我再次进入此页面时,URL的最后部分都会改变。 #c69fd2a4025c
然后变成#60dd96344025
。这是为什么下载(以前可以运行多次)这次不起作用的原因吗?
我总是得到一个index.html文件,该文件没有任何内容。
答案 0 :(得分:0)
#
字符之后的片段ID根本不会传输到服务器。页面上的Javascript可以访问它,因此它可能用于某种链接跟踪或指标。
我在欧洲,因此该网站不会在该URL下为我提供任何内容,仅提供带有同意书的门页。您可以通过添加Cookie来解决此类问题,但我怀疑您随后会遇到反广告拦截器限制。
通常,只能使用wkhtmltopdf之类的工具从网站捕获内容。在某些情况下,甚至在需要浏览器自动化之前,您才可以访问内容。