从动态网站刮取数据

时间:2010-07-30 16:54:21

标签: http asp.net-ajax screen-scraping

背景:该页面有一个包含数据的表格。有几个超链接,单击时,表中的数据将替换为新数据。此外,该页面是一个aspx页面。

目标:我想在表格中抓取所有按下的超链接。

我查看了通过firebug发生的事情,当点击超链接时,它会通过ajax生成一个http帖子回服务器。问题是发送了很多真正的垃圾邮件参数。我假设这是因为asp会做一些会话类型的事情。我假设即使我复制了浏览器发送的确切参数,但大多数参数无论如何都不会有效。

人们通常如何编写处理此类内容的http脚本?

4 个答案:

答案 0 :(得分:0)

我使用的防呆方法是在我的抓取脚本中从页面解释JS并让它填充所有这些参数本身。最快的方法是使用一些现成的引擎,比如WebKit,并在它上面构建你的刮刀。

更难,但更灵活的方式是使用Google V8或Mozilla的Spidermonkey JS引擎,并为他们提供您自己的DOM上下文。

答案 1 :(得分:0)

大部分时间我都使用WatiN进行简单的刮擦。我很少再写客户解析器/刮刀了。

答案 2 :(得分:0)

我将使用irobotsoft web scraper来执行此操作。应该很简单。

答案 3 :(得分:0)

Here is a Python example使用webkit解析网页中的JavaScript并为您提供最终的HTML