我正在尝试获取网页的内容,但页面加载了2次。
似乎有某种计时器,首先它会加载一些内容,然后在10秒后加载内容的其他部分,这些内容包含我想要的内容。
有没有办法实现这个目标?
Ty;)
答案 0 :(得分:0)
您需要使用无头浏览器引擎来执行此操作。 cURL和wget是HTTP库;他们说HTTP并将文档下载为文本。他们没有DOM或JavaScript引擎的概念,可以帮助他们理解页面正在执行AJAX或JS Timer。因此,要下载HTML,您需要通过解析DOM并执行JS来更像浏览器。我推荐使用Mozilla引擎的http://simile.mit.edu/wiki/Crowbar。