当我尝试从xvideos获取完整的dom内容时(meaby它的网站不是最好的例子,但我现在不能再找到了)browser.html()只返回dom的最后一个div元素。我认为这是javascript在页面上最后渲染的div,但我不确定。
var zombie = require("zombie");
zombie.visit("http://www.xvideos.com/", function (err, browser) {
console.log(browser.html());
})
由于
答案 0 :(得分:0)
browser.html()
会返回整页。快速测试显示,使用僵尸获取xvideos.com导致一些“存根”页面。
这只是一个理论,但xvideos上的人可能会使用一些浏览器检测脚本并返回任何与最常见浏览器不同的浏览器(UserAgent)的存根页面。这可能是保护自己免受爬行者攻击的安全措施。