我想分析网页的一些数据,但问题在于:网站有更多的页面可以通过__doPostBack函数调用。
如何“模拟”进一步浏览页面并分析此网站,等等..
此时我在java中使用JSoup分析数据 - 但如果有必要,我可以使用其他语言。
答案 0 :(得分:2)
基于回发的系统(.NET,Prado / PHP等)的工作方式是保留服务器端浏览器内容的完整快照。这称为页面状态。任何使用不支持JavaScript的客户端进行操作的尝试几乎都会失败。
您需要的是支持JavaScript的浏览器。我找到的最简单的解决方案是使用Firefox编写的框架 - XUL - 来创建这样的桌面应用程序。您所做的基本上是创建一个桌面应用程序,其中包含一个浏览器元素,然后您可以从应用程序本身编写脚本,而不受安全容器的限制。或者,您也可以使用Greasemonkey plugin进行出价。后者有点容易上手,但由于它是按页面运行的,所以它相当有限。
使用这两种解决方案,您就可以访问页面的DOM来收集数据,还可以触发事件(例如单击按钮)。不幸的是,你必须学习JavaScript才能使用它。
答案 1 :(得分:2)
答案 2 :(得分:0)
与Selenium一样,您可以使用http://watin.org/