解析包含动态javascript对象的网页

时间:2013-07-02 11:28:00

标签: java python parsing htmlunit dynamic-content

目前我正在使用python及其urllib2,urllib来检索一个简单的静态网页。在网页开发人员添加java脚本之前,一切都很顺利。现在,最有趣的信息隐藏在脚本背后:

<a href="javascript://" class="event-more-view" id="view-moreid-12311" onclick="Markets.applyView(this);return false;" treeid="1291266" eventstate ="false" > add table </a>

浏览器预加载数据并在单击“a href”链接时显示数据。 我的简短研究结果是JSOUP和HTMLunit。我正朝着正确的方向挖掘吗?任何缺点和专业人士?

python会帮忙吗?我应该使用Java吗?什么包可以帮助动态内容?什么更简单?

就我而言,我必须创建某种虚拟浏览器,只要内置脚本随时间刷新数据就必须进行处理。

1 个答案:

答案 0 :(得分:2)

你正在朝着正确的方向发展。

以下是一些需要考虑的选项/工具:

另见:

希望有所帮助。