wget不下载HTML

时间:2018-09-28 10:53:21

标签: web-crawler wget

我想下载该网站的纯HTML内容:https://www.forbes.com/sites/quora/2018/02/20/what-technology-stack-does-airbnb-use/#c69fd2a4025c

我尝试了一些选项,例如wget -E -H -k -p

我注意到,每当我再次进入此页面时,URL的最后部分都会改变。 #c69fd2a4025c然后变成#60dd96344025。这是为什么下载(以前可以运行多次)这次不起作用的原因吗?

我总是得到一个index.html文件,该文件没有任何内容。

1 个答案:

答案 0 :(得分:0)

#字符之后的片段ID根本不会传输到服务器。页面上的Javascript可以访问它,因此它可能用于某种链接跟踪或指标。

我在欧洲,因此该网站不会在该URL下为我提供任何内容,仅提供带有同意书的门页。您可以通过添加Cookie来解决此类问题,但我怀疑您随后会遇到反广告拦截器限制。

通常,只能使用wkhtmltopdf之类的工具从网站捕获内容。在某些情况下,甚至在需要浏览器自动化之前,您才可以访问内容。