使用python检索动态网站的源代码(绕过onclick)

时间:2009-12-10 09:43:03

标签: javascript python onclick urllib2 urllib

我希望检索网站的来源,这是在点击链接时动态生成的。链接本身如下:

<a onclick="function(); return false" href="#">Link</a>

这使我无法直接查询允许我获取动态生成的网站(urllib / 2)的URL。

如何检索网站的来源,这是通过python使用上述功能(用HTML格式)生成的?有没有办法绕过return false" href="#"?或完全onclick,并获取实际的网址?

如果还有其他方法可以从上面的抽象链接生成网站,那么可以从python中的urllib获取它,请转发给我。


修改

我概括了上面看到的代码 - 但是我被告知必须对特定的javascript进行逆向工程才能使用它。

链接到.js - http://a.quizlet.com/j/english/create_setku80j8.js

使用链接链接到网站:

<a onclick="importText(); return false" href="#">Bulk-import data</a>

网站的实际网址:http://quizlet.com/create_set/

上述相关.js的美化JS:http://pastie.org/737042

2 个答案:

答案 0 :(得分:2)

您可能需要对JavaScript进行反向工程以确定正在发生的事情。

您能提供相关网站和链接吗?

答案 1 :(得分:1)

我没有立即在该脚本中看到任何内容生成或链接跟踪代码;所有importText都会切换是否显示几个div。

如果你想研究webapp做一个特定动作的调用,为了从机器人中重现它们,你可能最好看一下浏览器生成的HTTP请求(表单提交和AJAX调用)同时执行该动作。您可以使用Firebug的“Net”面板为Firefox或Fiddler for IE进行研究。