好吧,我正在从其中一个网站上抓取数据(纯粹是在法律限制范围内)。
情况是该网站在网页上有5个问题并对其进行了回答。但是,我通过按Ctrl+u
看到的源代码与我Inspect element
或{看到的代码不同Firefox中的{1}}。这意味着网站正在更改页面加载的答案以欺骗周围的人,因为抓取工具通常会抓取未经修改的代码。正确答案位于firebug
已修改的页面上。
我想要的是捕获我在onLoad
或Firebug
(修改后的代码)中看到的源代码,而不是我在按Inspect element
时看到的代码。
我使用了其中一个抓取API,但它正在捕获原始的Ctrl+U
代码。
有没有解决方案?
答案 0 :(得分:1)
在chrome中,选择根元素(< html>)并右键单击 - >复制为HTML,粘贴到任何地方
[编辑]
我怀疑你是在试图自动抓取数据,这显然不起作用,不知道如何做到这一点。有一些无头网络浏览器支持JS(例如phantom js),他们可能会做到这一点。另请查看this super user post
答案 1 :(得分:0)
我建议你在onload发生之前记录页面的html。可以使用jquery来完成。
或使用“调试器”进行简单的经典调试,一旦您放置它的行被浏览器解释,它将停止您的网页的执行。
作为一个HTML5游戏开发者,我通常会通过控制台进行高级日志记录,以了解什么时候执行什么以及执行什么。虽然可能需要一些时间,但它可以让您很好地理解您所编写的内容并确保优化(主要是某些内容的执行者数量)并捕获可能不明显的错误。