如何捕获onload修改的网页的源代码

时间:2013-12-13 14:16:12

标签: javascript html web-scraping

好吧,我正在从其中一个网站上抓取数据(纯粹是在法律限制范围内)。

情况是该网站在网页上有5个问题并对其进行了回答。但是,我通过按Ctrl+u看到的源代码与我Inspect element或{看到的代码不同Firefox中的{1}}。这意味着网站正在更改页面加载的答案以欺骗周围的人,因为抓取工具通常会抓取未经修改的代码。正确答案位于firebug已修改的页面上。

我想要的是捕获我在onLoadFirebug(修改后的代码)中看到的源代码,而不是我在按Inspect element时看到的代码。

我使用了其中一个抓取API,但它正在捕获原始的Ctrl+U代码。

有没有解决方案?

2 个答案:

答案 0 :(得分:1)

在chrome中,选择根元素(< html>)并右键单击 - >复制为HTML,粘贴到任何地方

[编辑]

我怀疑你是在试图自动抓取数据,这显然不起作用,不知道如何做到这一点。有一些无头网络浏览器支持JS(例如phantom js),他们可能会做到这一点。另请查看this super user post

答案 1 :(得分:0)

我建议你在onload发生之前记录页面的html。可以使用jquery来完成。

或使用“调试器”进行简单的经典调试,一旦您放置它的行被浏览器解释,它将停止您的网页的执行。

作为一个HTML5游戏开发者,我通常会通过控制台进行高级日志记录,以了解什么时候执行什么以及执行什么。虽然可能需要一些时间,但它可以让您很好地理解您所编写的内容并确保优化(主要是某些内容的执行者数量)并捕获可能不明显的错误。