应用错误收集

是否有可能以编程方式获取生成的网页源？

时间：2013-03-09 20:39:44

标签： html dom

正如标题所述，我想知道是否有一种获取页面生成的HTML代码的方法。显然，我可以使用Web开发人员工具（浏览器内置程序或外部程序）检查页面并获取它，但我真的想自动执行此操作。或许可以使用Fiddler的API吗？

谢谢！

2 个答案:

答案 0 :(得分：2)

“源”在页面加载后不会被JavaScript改变，它是从生成的文档对象模型（DOM）被更改的源。然后将这个DOM转换为GUI，只要页面没有重新加载，就会随着每次更改而改变。

DOM不是HTML代码的字符串，它是页面的内存分层对象表示。浏览器在更改DOM时不保持DOM的最新平面文件表示，这就是为什么当您“查看源代码”时，您只能看到最初通过HTTP发送到浏览器的内容。

在Firebug等开发人员工具中，页面/ DOM的节点到节点表示是最接近重新生成源代码（AFAIK）的，而不需要自己构建一些新工具。

答案 1 :(得分：0)

您可以在Python中编写一个带有变量（URL）的脚本，并在下载网页的命令之后插入它，例如wget。

谷歌搜索它，我发现这解析HTML文件：也许你可以wget index.HTML并使用以下其中一个： How do you parse and process HTML/XML in PHP?