背景:该页面有一个包含数据的表格。有几个超链接,单击时,表中的数据将替换为新数据。此外,该页面是一个aspx页面。
目标:我想在表格中抓取所有按下的超链接。
我查看了通过firebug发生的事情,当点击超链接时,它会通过ajax生成一个http帖子回服务器。问题是发送了很多真正的垃圾邮件参数。我假设这是因为asp会做一些会话类型的事情。我假设即使我复制了浏览器发送的确切参数,但大多数参数无论如何都不会有效。
人们通常如何编写处理此类内容的http脚本?
答案 0 :(得分:0)
我使用的防呆方法是在我的抓取脚本中从页面解释JS并让它填充所有这些参数本身。最快的方法是使用一些现成的引擎,比如WebKit,并在它上面构建你的刮刀。
更难,但更灵活的方式是使用Google V8或Mozilla的Spidermonkey JS引擎,并为他们提供您自己的DOM上下文。
答案 1 :(得分:0)
大部分时间我都使用WatiN进行简单的刮擦。我很少再写客户解析器/刮刀了。
答案 2 :(得分:0)
我将使用irobotsoft web scraper来执行此操作。应该很简单。
答案 3 :(得分:0)
Here is a Python example使用webkit解析网页中的JavaScript并为您提供最终的HTML