应用错误收集

时间：2018-09-28 10:53:21

标签： web-crawler wget

我尝试了一些选项，例如wget -E -H -k -p。

我注意到，每当我再次进入此页面时，URL的最后部分都会改变。 #c69fd2a4025c然后变成#60dd96344025。这是为什么下载（以前可以运行多次）这次不起作用的原因吗？

我总是得到一个index.html文件，该文件没有任何内容。

答案 0 :(得分：0)

#字符之后的片段ID根本不会传输到服务器。页面上的Javascript可以访问它，因此它可能用于某种链接跟踪或指标。

我在欧洲，因此该网站不会在该URL下为我提供任何内容，仅提供带有同意书的门页。您可以通过添加Cookie来解决此类问题，但我怀疑您随后会遇到反广告拦截器限制。

通常，只能使用wkhtmltopdf之类的工具从网站捕获内容。在某些情况下，甚至在需要浏览器自动化之前，您才可以访问内容。