识别具有动态内容的网页

时间:2012-01-15 09:16:21

标签: javascript python mysql html dynamic

我在python中编码,对html,mysql,javascript或其他数据库类型语言知之甚少。

我正在使用pythons urllib模块来检索网络源代码,我想知道是否有办法识别网页是否有动态内容。通过动态内容,我的意思是,任何自主更改源代码不是从用户输入派生的。例如,如果该网页上的广告每10分钟更改一次。即使我加载页面两次并比较源代码,也不会发现页面实际上是动态的。我很想知道是否有任何“关键字”我可以在源代码中查找,以确定该网页使用的是动态内容。

由于

更新

我没有声称对javascript有任何了解,但我在页面中发现以下代码,我知道这些代码是动态的,但通常不会透露它:

document.write('<script language="JavaScript" src="http://ad.doubleclick.net...
     

document.write可以成为识别动态网页的好关键字

1 个答案:

答案 0 :(得分:4)

这是一件非常困难的事情。基本上你会寻找ajax请求并查看它引导你的位置。如果要解析该动态内容,则必须使用javascript解释器或浏览器(如加载类型)。我看不到其他解决方案。

祝你好运。